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序 一 :1 


这 是 一 个 数据 爆发 的 时 代 ， 宽 带 化、 移动 互联 网 、 物 联网 、 智 能 终端 的 普及 
与 人 工 智能 的 兴起 ， 促 使 全 球 数据 每 两 年 翻 一 番 ， 预 计 2020 年 全 球 数 据 规模 将 达到 
44ZB， 较 2013 年 将 增长 10 倍 。 有 资料 报告 ，2013 年 全 球 数据 的 来 源 基本 上 是 消费 
者 、 企 业 与 政府 各 贡献 113 。 按 照 用 户 数 计算 ， 在 中 国 ， 无 论 是 互联 网 用 户 还 是 移动 
互联 网 用 户 ， 无 论 是 固 网 宽带 用 户 还 是 移动 宽带 用 户 ， 其 规模 都 已 经 是 全 球 第 一 ， 
中 国 的 数据 拥有 量 的 潜力 为 全 球 之 冠 。IDC 公 司 曾经 指出 ，2013 年 中 国 在 全 球 数据 占 
比 13%， 预 计 2020 年 将 上 升 到 18%。 

拥有 数据 并 不 意味 着 坐 拥 金 矿 ， 数 据 的 产生 与 存储 还 要 付出 成 本 代价 ， 大 数据 
只 有 通过 数据 分 析 与 挖掘 ， 发 现 知识 和 生成 智慧 才能 创造 价值 。 大 数据 挖掘 的 应 用 
将 总 结 事物 发 展 规律 ， 提 升 人 类 生产 与 管理 活动 的 准确 性 ， 减 少 传统 方式 下 的 “ 试 
错 ” 成 本 ， 进 而 提升 社会 的 总 生产 效率 。 

大 数据 的 挖掘 需要 很 多 技术 支持 ， 反 过 来 说 也 带动 了 海量 存储 、 高 效 计算 、 深 
度 学 习 、 可 视 呈 现 等 很 多 技术 和 学 科 的 发 展 ， 它 是 当代 信息 技术 的 集中 体现 。 大 数 
据 挖掘 本 身 是 产业 ， 但 其 效益 更 多 地 反映 在 其 应 用 到 的 社会 管理 和 其 他 行业 中 ， 
大 数据 之 所 以 受 重视 正 是 因为 其 溢出 效益 明显 ， 大 数据 将 成 为 影响 国家 竞争 力 的 重 
要 因素 。 

美国 、 英 国 、 欧 盟 、 日 本 和 韩国 等 国政 府 越 来 越 重 视 大 数据 所 产生 的 价值 ， 鼓 
励 使 用 大 数据 以 推动 社会 进步 ， 支 持 政府 数据 的 公共 资源 化 ， 并 发 布 促进 大 数据 技 
术 发 展 的 政策 纲要 。2015 年 中 国 国 务 院 发 布 《促进 大 数据 发 展 行动 纲要 》， 提 出 了 
五 大 目标 、 三 大 任务 、 十 大 工程 以 及 七 项 政策 ， 在 国家 层面 推动 大 数据 的 应 用 与 落 
地 。 大 数据 的 挖掘 应 用 正在 引起 各 行 各 业 的 关注 ， 成 为 “互联 网 +” 行 动 的 主要 抓 
手 ， 将 发 掘 经济 增长 新 动能 。 

大 数据 的 挖掘 不 仅 需要 技术 ， 更 需要 人 才 ， 麦 肯 锡 公司 预测 ， 到 2018 年 美国 对 
大 数据 深度 分 析 人 才 的 需求 与 实际 可 供给 之 间 相 差 一 倍 以 上 。 我 国 与 发 达 国家 相 比 
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更 缺乏 深度 分 析 人 才 ， 尤 其 是 大 数据 架构 师 。 高 校 承 担 了 培养 人 才 的 责任 ， 但 更 需 
在 实践 中 锻炼 ， 为 加 速 大 数据 架构 师 的 成 长 过 程 ， 实 用 经 验 的 传承 十 分 重要 。 

中 兴 通 讯 对 大 数据 的 知识 与 工程 经 验 进行 系统 性 的 概述 ， 正 好 契合 了 当前 大 数 
据 挖掘 应 用 的 浪潮 ， 弥 补 了 此 类 书籍 的 空白 ， 为 促进 大 数据 技术 的 发 展 与 应 用 提供 
了 宝贵 的 经 验 。 


中 国 工程 院 院士 
= 


Stir 


数据 并 不 是 一 个 新 概念 ， 几 千年 来 我 们 一 直 在 利用 数据 。 但 数据 的 价值 ， 特 别 
是 大 数据 的 价值 ， 最 近 几 年 才 成 为 公众 关注 的 焦点 ， 是 有 其 时 代 背 景 的 。 

就 如 同 石油 在 几 千 年 前 就 被 发 现 了 ， 但 是 其 用 途 一 直 是 作为 日 常生 活 或 战争 中 
的 燃料 ， 并 不 是 特别 重要 的 战略 物资 。 只 有 内 燃 机 被 发 明 后 ， 石 油 才 成 为 最 重要 的 
动力 能 源 ， 在 最 近 的 一 百年 才 成 为 战略 物资 。 

数据 也 一 样 。 传 统 的 数据 库 技术 ， 在 数据 处 理 的 能 力 上 都 有 很 大 的 局 限 性 ， 超 
过 100T 这 个 量 级 ， 要 么 是 处 理 效率 急剧 降低 ， 要 么 是 系统 成 本 上 升 到 难以 接受 的 昂 
贵 程度 。 所 以 ， 在 大 数据 时 代 之 前 ， 数 据 在 生产 系统 中 的 使 用 目的 往往 是 单一 的 、 
即时 的 。 大 量 的 历史 数据 与 过 程 数据 ， 按 照 当时 的 IT 技 术 ， 既 无 法 存储 ， 更 无 法 处 
理 。 那 些 被 备份 到 磁带 机 上 的 数据 ， 大 部 分 都 成 为 死亡 的 数据 化 石 。 

当前 大 数据 处 理 的 技术 ， 特 别 是 云 存储 与 云 计算 技术 的 成 熟 应 用 ， 为 大 数据 的 
存储 与 处 理 提 供 了 技术 可 能 性 。 企 业 可 以 利用 生产 系统 以 及 管理 系统 中 产生 的 大 量 
数据 ， 对 海量 的 数据 进行 存储 、 挖 掘 分析 。 一 方面 可 以 对 生产 活动 进行 更 为 准确 的 
预测 与 指导 ， 从 而 提高 企业 生产 活动 的 准确 性 ; 另 一 方面 还 可 以 通过 对 数据 价值 的 
挖掘 ， 产 生 新 的 业务 ， 帮 助 企 业 充 分 开发 数据 的 价值 。 政 府 也 可 以 利用 大 数据 来 提 
高 管理 水 平和 效率 。 

2014 年 Gartner 发 布 的 HypeCycle 曲 线 中 ， 大 数据 技术 已 经 越过 炒作 顶点 。 从 
HypeCycle 曲 线 来 看 ， 越 过 炒作 顶点 的 技术 ， 往 往 是 已 经 满足 技术 可 行 性 的 技术 。 技 
术 进 展 并 辅 以 商业 模式 创新 ， 大 数据 在 部 分 细 分 市 场 已 经 具备 商业 可 行 性 ， 可 以 为 
企业 的 现在 与 未 来 带 来 收益 。 

2015 年 8 月 国务 院 发 布 了 《促进 大 数据 发 展 行动 纲要 》， 将 大 数据 的 应 用 与 落地 
提升 到 国家 层面 。 在 这 种 背景 下 ， 当 前 大 数据 系统 建设 出 现 一 波 高 潮 。 商 业 级 的 大 
数据 系统 建设 周期 长 ， 复 杂 度 高 ， 资 金 投入 量 大 ， 所 以 需要 合理 的 系统 架构 以 应 对 
未 来 业务 需求 的 变化 。 由 于 业界 大 数据 系统 的 建设 刚 起 步 ， 当 前 阶段 急需 对 相关 的 
系统 架构 知识 以 及 实际 项 目 建设 经 验 进行 共享 ， 提 升 业 界 的 整体 建设 水 平 。 
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纵 观 当前 业界 大 数据 相关 的 书籍 ， 偏 重 于 两 大 类 型 。 其 一 是 偏重 于 大 数据 理 
念 ， 描 绘 大 数据 前 景 ， 说 明 大 数据 可 以 有 哪些 应 用 ; 其 二 是 偏重 于 大 数据 基础 知 
识 ， 偏 重 于 实际 的 编程 与 开发 。 

但 在 大 数据 项 目的 实际 建设 过 程 中 ， 架 构 师 在 进行 端 到 端 方案 设计 时 ， 需 要 对 
大 数据 庞大 的 知识 体系 进行 总 揽 性 把 握 ， 并 辅 以 实际 项 目的 经 验 ， 才 有 可 能 把 握 此 
类 系统 的 关键 需求 与 要 点 。 而 此 类 的 知识 与 经 验 ， 业 界 分 享 较 少 ， 只 能 通过 各 类 交 
流 活 动 才能 获取 ， 不 仅 费 时 费力 ， 而 且 还 很 难 将 这 些 知识 系统 化 。 

中 兴 通 讯 作 为 业界 知名 企业 ， 在 大 数据 研发 上 投入 大 量 资源 ， 并 具备 丰富 的 实 
际 工程 经 验 。 本 书 不 仅 针对 大 数据 知识 进行 系统 化 概述 ， 并 且 将 实际 大 型 项 目的 经 
验 进行 总 结 。 这 种 无 私 分 享 的 宝贵 经 验 ， 正 是 业界 所 或 需 的 ， 对 大 数据 从 业者 具备 
较 好 的 参考 价值 。 相 信 本 书 分 享 的 知识 与 经 验 ， 对 推动 大 数据 应 用 与 落地 起 到 积极 
的 促进 作用 。 
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毫 无 疑问 ， 这 是 属于 大 数据 的 时 代 。 随 着 移动 互联 网 的 进步 、 自 媒体 的 风行 
和 物 联网 的 兴起 ， 信 息 传播 技术 和 信息 传播 渠道 得 到 极 大 发 展 ， 海 量 级 甚至 银河 级 
的 数据 不 断 涌现 ， 呈 现 出 “信息 爆炸 ”的 态势 。 这 种 情况 下 ， 似 乎 我 们 获取 信息 变 
得 更 加 容易 和 方便 ;而 实际 上 ， 由 于 对 个 体 有 用 的 信息 淹没 在 浩如烟海 的 无 关 信息 
中 ， 获 取 “ 有 用 信息 ”反而 变 得 更 加 困难 。 

大 数据 相关 技术 就 是 在 这 种 情况 下 应 运 而 生 的 。 作 为 一 门 新 兴 技术 ， 大 数据 技 
术 被 人 熟知 和 掌握 需要 一 个 过 程 ， 同 时 ， 由 于 其 始终 处 于 一 个 高 速 发 展 的 过 程 ， 对 
其 认识 也 是 不 断 修 正 提高 的 过 程 。 

鉴于 此 ， 本 书 总 结 了 中 兴 通 讯 大 数据 平台 DAP 团 队 对 大 数据 技术 的 最 新 研究 成 
果 ， 结 合 中 兴 大 数据 平台 在 各 行业 的 应 用 实践 经 验 ， 引 在 帮助 读者 建立 系统 化 的 大 
数据 技术 脉络 ， 并 针对 业界 一 些 似是而非 的 问题 进行 系统 性 的 讲解 与 澄清 。 阅 读 完 
本 书 ， 读 者 就 可 以 基本 掌握 大 数据 技术 的 系统 架构 和 核心 思想 。 


为 何 要 写 这 本 书 

在 大 数据 项 目 建设 过 程 中 ， 往 往 需 要 三 个 层次 的 知识 。 第 一 个 层次 是 关于 大 数 
据 是 什么 ， 能 做 什么 等 理念 方面 的 知识 ， 第 二 个 层次 是 如 果 去 端 到 端 进行 大 数据 方案 
设计 ， 要 厘清 大 数据 方案 所 需 的 关注 重点 ， 并 结合 具体 的 实践 案例 进行 说 明 ， 第 三 个 层 
次 是 大 数据 相关 的 基础 技术 知识 ， 例 如 ， 对 HDFS、MR、SPARK 等 技术 点 的 掌握 。 

第 一 个 层次 的 书籍 ， 业 界 已 经 有 很 多 ， 其 中 以 《大 数据 时 代 》 为 典型 代表 ; 第 
三 个 层次 的 书籍 ， 业 界 也 比较 多 ， 读 者 不 难 获得 相关 的 学 习 材 料 。 

但 第 二 个 层次 的 书籍 ， 属 于 承上启下 的 层次 。 该 层次 的 知识 需要 从 实践 中 总 结 
出 经 验 与 知识 。 由 于 大 型 项 目的 建设 周期 长 ， 建 设 复杂 度 高 ， 涉 及 面 广 ， 所 以 从 大 
型 项 目的 实践 中 总 结 出 知识 有 较 高 的 难度 。 鉴 于 此 ， 市 面 上 该 层次 的 大 数据 书籍 相 
对 较 少 ， 大 数据 相关 的 从 业者 或 建设 者 较 难 获得 这 方面 的 知识 ， 往 往 只 能 通过 各 类 
交流 活动 获取 这 方面 的 知识 ， 不 仅 费 时 费力 ， 而 且 难 以 将 这 些 知 识 系 统 化 。 
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基于 如 上 原因 ， 我们 感觉 迫切 需要 将 我 们 在 大 型 项 目 中 积累 的 经 验 总 结 出 来 ， 
供 业 界 同仁 参考 ， 同 时 ， 这 也 可 以 满足 我 们 内 部 人 员 学 习 大 数据 相关 知识 的 需求 。 


本 书 读者 对 象 

如 果 您 是 IT 市 场 营销 人 员 ， 或 者 是 企业 IT 主管 ， 您 可 以 直接 阅读 本 书 的 第 一 部 
分 与 第 三 部 分 。 通 过 对 本 书 第 一 部 分 与 第 三 部 分 的 阅读 ， 将 帮助 您 建立 起 大 数据 技 
术 概 念 和 框架 。 如 果 您 对 具体 的 大 数据 技术 不 感 兴趣 ， 可 以 忽略 掉 第 二 部 分 纯 技术 
的 内 容 。 

如 果 您 是 大 数据 技术 人 员 ， 本 书 将 会 是 一 本 较 好 的 参考 资料 ， 有 助 于 帮助 您 超 
越 自己 所 从 事 的 具体 模块 ， 将 您 的 大 数据 知识 体系 系统 化 。 

如 果 您 是 高 校 大 数据 相关 课程 的 老师 ， 由 于 本 书 较为 系统 ， 可 以 考虑 将 本 书 作 
为 参考 书 或 者 教材 。 

如 果 您 是 大 数据 技术 爱好 者 ， 也 可 以 将 本 书 作 为 泛 读书 籍 ， 让 您 理解 当前 大 数 
据 的 时 代 。 当 然 ， 读 者 如 果 能 具备 一 定 的 IT 基础 知识 ， 将 能 够 更 好 地 汲取 本 书 中 的 
知识 。 这 不 仅 有 助 于 您 快速 理解 大 数据 相关 知识 ， 也 有 助 于 启发 您 对 特定 专题 的 深 
入 思考 和 独到 分 析 。 


本 书 特色 


本 书 是 首 本 系统 化 的 方案 实践 方面 书籍 ， 系 统 化 地 阐述 了 大 数据 方案 应 该 如 何 
思考 ， 以 及 大 数据 的 技术 基础 知识 ， 并 辅 以 实际 的 案例 进行 说 明 。 

以 客户 化 的 语言 ， 描 述 大 数据 项 目 建设 中 应 该 重点 考虑 的 问题 。 即 使 不 是 技术 
专家 ， 也 能 很 容易 地 理解 本 书 第 一 部 分 的 内 容 。 

较为 系统 地 阑 述 了 大 数据 相关 的 体系 ， 可 以 帮助 读者 迅速 系统 化 大 数据 相关 的 
知识 。 

结合 实际 的 案例 ， 总 结 在 大 数据 建设 实践 中 的 经 验 与 知识 。 


如 何 阅读 本 书 

本 书 内 容 分 为 四 大 部 分 ， 不 同 的 读者 可 以 选择 不 同 的 内 容 进 行 阅读 。 

本 书 第 一 部 分 是 “大 数据 架构 师 入 门 ”， 以 虚构 角色 小 明 的 视角 ， 去 理解 大 数 
据 ， 理 解 客 户 的 烦恼 ， 并 提出 构建 一 个 大 数据 系统 时 应 该 从 哪些 方面 考虑 。 阅 读 完 
该 部 分 后 ， 读 者 将 对 大 数据 方案 具备 一 定 的 “提问 题 ”的 能 力 。 也 就 是 说 ， 如 果 您 
面前 有 一 份 大 数据 的 建设 方案 ， 即 使 您 以 前 对 大 数据 了 解 甚 少 ， 也 可 以 根据 本 书 第 3 
章 的 建议 ， 去 评判 方案 的 完整 性 ， 评 判 方案 的 深度 与 广度 。 

本 书 第 二 部 分 是 “大 数据 架构 师 基础 ”， 本 部 分 将 较为 系统 地 介绍 大 数据 相关 
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的 基础 知识 。 如 图 1 -1 所 示 ， 逐 个 介绍 基础 支撑 层 、 计 算 存 储 层 、 中 间 件 层 、 挖 掘 分 
析 / 应 用 层 、 展 现 层 各 部 分 内 容 ， 同 时 ， 对 贯穿 各 层 的 安全 和 管理 两 大 模块 的 相关 内 
容 做 介绍 ， 力 图 为 读者 呈现 一 个 相对 完整 的 大 数据 知识 架构 。 


展现 层 
中 间 件 层 
计算 存储 层 
基础 支撑 层 


HP 
pean 


图 I-1 大 数据 技术 框架 


其 中 ， 计 算 存 储 层 包括 Hadoop 架 构 、Spark 架 构 、 分 析 挖 掘 组 件 等 内 容 ， 中 间 件 
层 包括 中 间 件 的 作用 与 意义 ， 以 及 业界 常用 中 间 件 及 应 用 场景 ， 展 现 层 包括 可 视 化 
相关 的 知识 与 内 容 ， 安全 模块 包括 物理 安全 、 主 机 安全 、 网 络 安全 、 数 据 安全 等 内 
容 ; 管理 模块 包括 自动 部 署 、 自 动 升级 、 自 动 巡 检 、 自 动 维护 等 内 容 。 

本 书 第 三 部 分 是 “大 数据 架构 师 实践 ”， 主 要 包括 大 数据 开发 实践 中 积累 的 一 
些 经 验 ， 并 结合 案例 进行 阐述 。 这 些 实战 中 积累 的 知识 与 智慧 ， 将 帮助 理论 联系 实 
践 ， 更 好 地 理解 大 数据 技术 。 

本 书 第 四 部 分 是 “大 数据 架构 师 拓 展 ”， 主 要 包括 与 大 数据 相关 的 其 他 技术 。 
这 些 技术 通常 来 说 ， 并 不 属于 大 数据 的 技术 范畴 ， 但 由 于 这 些 技术 与 大 数据 关系 紧 
密 ， 作 为 一 名 架构 师 ， 也 需要 系统 地 了 解 与 思考 这 些 相关 的 技术 ， 才 能 对 整个 方案 
进行 全 局 把 握 。 该 部 分 将 试图 对 这 些 技术 进行 简单 介绍 ， 并 试图 说 明 这 些 技术 与 大 
数据 之 间 的 关系 。 

对 于 不 需要 关注 具体 技术 的 读者 ， 则 可 以 仅 阅读 第 一 部 分 “大 数据 架构 师 入 
门 ”; 如 果 对 具体 的 案例 感 兴趣 ， 则 可 以 阅读 第 三 部 分 “大 数据 架构 师 实践 ”; 如 
果 是 对 技术 感 兴趣 的 读者 ， 则 可 以 阅读 第 二 部 分 “大 数据 架构 师 基础 ”与 第 四 部 分 
“大 数据 架构 师 拓展 ”。 


本 书 编写 团队 


大 数据 的 知识 非常 广泛 ， 不 同 层面 的 知识 ， 以 及 不 同 技术 模块 的 知识 ， 很 难 由 
一 个 人 完全 掌握 ， 所 以 本 书 是 编写 团队 共同 努力 的 成 果 。 编 写 团队 的 成 员 都 是 在 大 
数据 领域 担当 重要 工作 岗位 的 技术 骨干 ， 大 家 在 共同 的 理想 与 爱好 下 ， 聚 集成 一 个 
团队 ， 并 为 大 数据 架构 师 们 完成 了 业界 首 本 全 面 实践 指导 类 的 书籍 。 在 此 ， 请 允许 
我 列举 参与 编写 的 团队 成 员 ， 并 向 他 们 致 以 诚挚 的 谢意 。 感 谢 他 们 牺牲 周末 与 节 假 
日 的 休息 时 间 ， 为 大 家 做 的 无 私 贡献 。 

团队 成 员 包 括 : 申 山 宏 、 梁 平 、 薛 清华 、 李 敏 、 郭 海 生 、 杨 荣 康 、 牛 家 浩 、 刘 
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少 刨 、 管 云 、 洪 科 、 简 明 、 张 强 、 艾 红 芳 、 关 涛 、 刘 淑 霞 、 郭 进 良 、 汪 绍 飞 、 周 治 
中 、 王 利 学 、 黄 增 建 。 


勘误 与 支持 


尽管 我 们 尽 了 各 种 努力 来 保证 文章 不 出 错误 ， 但 由 于 编者 水 平 有 限 ， 加 上 编写 
时 间 仓促 ， 难 免 会 有 错 论 之 处 。 如 果 你 在 书 中 发 现 了 错误 ， 例 如 错别字 、 书 写 错误 
等 ， 请 告诉 我 们 ， 我 们 将 整理 成 勘误 表 。 通 过 勘误 表 ， 可 以 帮助 其 他 读者 节省 阅读 
时 间 ， 提 高 阅读 体验 ， 并 可 以 帮助 我 们 提供 更 高 质量 的 下 一 版 。 

错误 反馈 请 发 送 至 邮箱 zhou.zhizhong@zte.com.cn， 或 者 关注 “中 兴 大 数据 ” 微 
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大 数据 架构 师 入 门 


第 一 部 分 
大 数据 架构 师 入 门 


故事 是 这 样 的 ， 在 英语 课本 中 伴随 我 们 成 长 的 小 明 ， 中 学 毕业 后 考 上 了 大 学 名 校 ， 
“day dayup” 地 苦 修 7 年 计算 机 、IT 以 及 大 数据 知识 后 ， 终 于 成 长 为 大 数据 咨询 师 。 

记得 那 是 明媚 的 春天 ， 小 明 愉 快 地 遂 游 在 大 数据 一 望 无 际 的 知识 海洋 里 ， 春 风 
十 里 不 如 大 数据 。 忽 然 电话 铃 响 了 ， 电 话 那 头 传 来 Boss 低 沉 的 声音 : “小 明 ， 请 到 
我 办 公 室 来 一 趟 。” 

十 里 的 春风 ， 和 忽然 变幻 成 浓郁 的 雾 者 。 小 明 走 三 步 停 一 步 ， 终 于 走 到 Boss 面 
前 。“ 国 务 院 2015 年 8 月 31 日 已 经 印发 了 《促进 大 数据 发 展 行动 纲要 》， 你 为 哈 到 现 
在 都 没有 向 我 报告 ? 给 你 三 天 时 间 ， 给 我 说 说 ， 什 么 是 大 数据 ? 大 数据 可 以 干 哈 ? 
未 来 的 技术 方向 是 哈 ? ” 

小 明 赦 了 三 天 三 夜 ， 终 于 将 业界 关于 大 数据 的 科普 知识 整理 出 了 一 份 报告 ， 趁 
着 早上 Boss 还 没有 来 上 班 ， 悄 悄 地 将 报告 放 在 Boss 办 公 菏 上 。 


1.1 什么 是 大 数据 


大 数据 ， 英 文 为 Big Data。 这 个 如 今 耳 熟 能 详 的 名 字 ， 是 《自然 》(Nature) 杂 志 
于 2008 年 9 月 4 日 的 专辑 “Big Data” 中 首次 提出 的 。 

Google 在 其 推动 世界 范围 内 的 信息 整合 过 程 中 ， 极 大 地 推动 了 大 数据 技术 的 创 
新 和 发 展 。 

然而 ， 到 底 什么 是 大 数据 ? 它 的 概念 和 外 延 包 括 哪些 ? 由 于 大 数据 是 最 近 新 衍 
生出 来 的 概念 ， 它 的 内 涵 和 外 延 也 在 不 断 地 拓展 和 变化 着 ， 目 前 还 没有 一 个 业界 广 
泛 采 纳 的 明确 定义 。 

2011 年 6 月 ， 麦 肯 锡 全 球 研究 院 (MGD 在 它 的 报告 《大 数据 : 创新 、 竞 争 和 生产 
力 的 下 一 个 前 沿 领 域 》 中 这 样 描述 : 大 数据 是 指 无 法 用 传统 数据 库 软件 工具 对 其 内 
容 进行 抓 取 、 管 理 和 处 理 的 大 体 量 数据 集合 (“Big data” refers to datasets whose size 


is beyond the ability of typical database software tools to capture, store, manage, and 
analyze) 

几乎 同时 ，IDC(International Data Corporation) 在 它 编 制 的 年 度数 字 宇宙 研究 报 
告 《从 混沌 中 提取 价值 》(Extracting Value from Chaos) 中 给 大 数据 下 了 一 个 定义 : 
大 数据 技术 是 新 一 代 的 技术 与 架构 ， 它 被 设计 用 于 在 成 本 可 承受 (economically) 的 
条 件 下 ， 通 过 非常 快速 (velocity) 的 采集 、 发 现 和 分 析 ， 从 大 体 量 (volumes)、 多 类 别 
(variety) 的 数据 中 提取 价值 (value)(Big data technologies describe a new generation of 
technologies and architectures, designed to economically extract value from very large 
volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or 
analysis) 

IDC 的 定义 描述 了 大 数据 时 代 的 四 大 特征 ， 即 俗称 的 4V， 而 这 4V(volumes、 
Velocity、variety、value) 也 被 广泛 地 认可 为 大 数据 的 最 基本 内 涵 。 

(1) 海量 化 (volumes) 

数据 体 量 巨 大 是 大 数据 的 首要 特征 ， 也 是 大 家 最 容易 发 现 的 特征 。 全 球 数据 正 
以 前 所 未 有 的 速度 增长 着 ， 每 天 都 有 数 以 百 万 兆 字 节 的 数据 在 互联 网 上 产生 。 据 佑 
计 ， 全 球 可 统计 的 数据 存储 量 在 2011 年 约 为 1.8ZB，2015 年 超过 8ZB。 数 据 的 爆炸 式 
增长 引发 了 数据 存储 和 处 理 的 危机 。 

(2) 多 样 化 (variety) 

数据 类 型 的 日 趋 繁多 是 大 数据 的 另 一 个 特征 。 传 统 的 数据 可 以 用 二 维 表 的 形 
式 存储 在 数据 库 中 ， 我 们 称 之 为 结构 化 数据 。 但 随 着 互联 网 多 媒体 应 用 的 兴起 ， 图 
片 、 声 音 和 视频 等 非 结 构 化 数据 成 为 了 数据 的 主要 组 成 部 分 ， 统 计 显 示 ， 目 前 全 世 
界 非 结构 化 数据 已 占 数据 总 量 的 90% 左 右 。 如 何 有 效 地 处 理 非 结构 化 数据 ， 并 挖掘 出 
其 中 蕴含 的 商业 价值 和 经 济 社会 价值 ， 是 大 数据 技术 要 解决 的 问题 。 

(3) 快速 化 (velocity) 

快速 处 理 是 大 数据 必须 满足 的 要 求 。 经 济 全 球 化 形势 下 ， 企 业 面临 的 竞争 环境 
越 来 越 严酷 。 在 此 情况 下 ， 如 何 及 时 把 握 市 场 动态 ， 深 入 洞察 行业 、 市 场 、 消 费 者 
的 需求 ， 并 快速 、 合 理 地 制定 经 营 策略 ， 就 成 为 企业 生死 存亡 的 关键 。 而 对 大 数据 
的 快速 处 理 分 析 ， 是 实现 这 一 目标 的 前 提 。 

(4) 价值 化 (value) 

大 数据 蕴含 的 整体 价值 是 巨大 的 ， 但 是 由 于 干扰 信息 多 ， 导 致 其 价值 密度 低 ， 


第 一 部 分 
大 数据 架构 师 入 门 
这 是 大 数据 在 价值 维度 的 两 个 特征 。 挖 掘 出 大 数据 的 有 用 价值 并 加 以 利用 ， 是 数据 
拥有 者 的 自然 目标 。 但 市 场 形势 瞬息 万 变 ， 因此， 如 何在 海量 的 、 多 样 化 的 、 低 价 
值 密度 的 数据 中 快速 挖掘 出 其 蕴含 的 有 用 价值 ， 是 大 数据 技术 的 使 命 。 

虽然 后 续 不 断 有 人 增加 对 “V?” 的 理解 ， 如 veracity( 真 实 和 准确 )， 强 调 真实 而 准 
确 的 数据 才能 让 对 数据 的 管控 和 治理 真正 有 意义 ;如 vitality( 动 态 性 )， 强 调 数据 体 
系 的 动态 性 等 。 这 些 对 大 数据 的 内 涵 都 有 一 定 的 推动 作用 ， 但 都 不 及 开始 的 4V 具 
有 广泛 性 。 


1.2 大 数据 的 本 质 


所 有 技术 的 发 展 都 是 为 社会 进步 服务 的 ， 大 数据 技术 也 不 例外 。 但 是 ， 大 数据 
技术 对 社会 生产 的 促进 作用 是 变革 性 甚至 是 颠覆 性 的 。 

“大 数据 商业 应 用 第 一 人 ” Viktor Mayer-Sch5nberger 在 其 著作 《大 数据 时 代 》 
中 ， 前 瞻 性 地 指出 ， 大 数据 正在 变革 我 们 的 生活 、 工 作 和 思维 。 大 数据 开启 了 一 次 
重大 的 时 代 转 型 ， 为 我 们 带 来 了 思维 变革 、 商 业 变革 和 管理 变革 。 其 中 最 重要 的 三 
个 思维 变革 颠覆 了 千 百 年 来 人 类 的 思维 惯例 ， 对 人 类 的 认 知 和 与 世界 交流 的 方式 提 
出 了 全 新 的 挑战 。 

(1) 全 样本 

我 们 将 使 用 更 多 的 数据 甚至 是 全 部 数据 来 进行 分 析 ， 而 不 再 采用 随机 样本 。 从 
可 能 性 角度 ， 当 前 的 技术 能 力 已 经 可 以 支撑 海量 数据 的 处 理 ， 从 必要 性 角度 ， 有 时 
候 数 据 分 析 的 目的 就 是 要 发 现 大 量 正常 数据 中 的 少数 异常 情况 ， 例 如 跨 境 汇款 中 的 
异常 交易 ， 这 无 法 通过 采样 分 析 获 得 。 

(2) 概率 化 

我 们 将 不 再 沉迷 于 精确 性 ， 而 是 允许 劣质 数据 混杂 其 中 。 大 数据 时 代 不 可 能 实 
现 精确 ， 反 之 用 概率 来 表示 事物 发 展 的 大 方向 ， 混 杂 性 变 成 了 一 种 标准 途径 。 

(3) 相关 性 

我 们 将 更 关心 相关 关系 ， 因 果 关 系 被 放 到 次 要 的 位 置 。 在 很 多 场景 下 ，“ 是 什 
么 ” 比 “ 为 什么 ”对 决策 的 帮助 更 大 ， 可 以 在 快速 变化 的 环境 中 帮助 你 先 发 一 步 。 


大 数据 概述 


甚至 ， 在 一 些 不 知道 “为 什么 ”的 场景 下 ， 知 道 “ 是 什么 ”反而 有 助 于 人 们 取得 发 
现 “ 为 什么 ”的 突破 。 

基于 这 种 思维 发 展 起 来 的 大 数据 技术 ， 具 有 以 往 的 各 种 技术 不 具备 的 准确 性 和 实 
时 性 优势 ， 当 它 应 用 到 社会 各 行业 生产 中 时 ， 对 社会 生产 效率 的 提升 是 异常 显著 的 。 

很 多 人 对 于 大 数据 应 用 的 认识 ， 都 始 于 Google 对 于 流行 性 疾病 的 成 功 预测 。 
Google 利 用 当前 人 们 喜欢 上 网 搜索 解决 方案 (如 搜索 流感 症状 或 者 治疗 药物 ) 的 习惯 ， 
找 出 了 对 应 时 段 内 某 些 特定 字段 的 搜索 频率 与 美国 疾 控 中 心 历史 记录 中 某 些 流行 性 
疾病 在 空间 和 时 间 上 的 相关 性 ， 并 据 此 而 建立 了 一 个 数学 模型 。 利 用 这 个 数学 模 
型 ，Google 成 功 预测 了 2009 年 HIN1 流 感 的 发 展 过 程 。 

而 这 个 成 功 应 用 带 来 的 振奋 远 不 止 如 此 。 首 先 ， 作 为 一 家 互联 网 公司 ，Google 
在 与 其 毫 无 关联 的 医学 专业 领域 获得 了 成 功 ， 更 重要 的 是 ， 它 的 预测 在 准确 性 特别 
是 实时 性 方面 ， 远 远 超过 专业 的 美国 疾 控 中 心 。 

于 是 ， 更 多 的 人 在 更 多 的 行业 开始 了 大 数据 应 用 尝试 。 

在 零售 业 : 梅 西 百货 (Macys) 已 经 实现 对 多 达 7300 万 种 货品 进行 实时 调价 ， 以 实 
现 销量 和 利润 的 双重 最 大 化 ， 塔 吉 特 (Target) 公 司 通 过 对 用 户 历 史 消 费 记录 的 大 数据 
分 析 ， 实 现 对 用 户 下 一 阶段 消费 行为 的 预测 ， 从 而 实现 精准 投放 。 

在 博彩 业 : Tipp24 AG 公 司 用 KXEN 软 件 来 分 析 数 十 亿 计 的 交易 以 及 客户 的 特 
性 ， 然 后 通过 预测 模型 对 特定 用 户 进行 动态 的 营销 活动 。 这 项 举措 减少 了 90% 的 预测 
模型 构建 时 间 。 

在 通信 业 : 中 兴 通 讯 创 新 性 地 提出 了 基于 大 数据 技术 的 电信 系统 反馈 环 理念 ， 
让 电信 网 络 作为 一 个 整体 获得 实时 的 系统 反馈 ， 从 而 使 网 络 性 能 更 加 稳定 ， 网 络 运 
维 更 加 高 效 ， 而 全 球 120 家 运营 商 中 ， 已 经 有 48% 的 企业 正在 实施 大 数据 战略 ， 通 过 
提高 数据 分 析 能 力 ， 他 们 正 试图 打造 着 全 新 的 商业 生态 圈 ， 实 现 从 电信 网 络 运营 商 
(Telecom) 到 信息 运营 商 (Infocom) 的 华丽 转身 。 

在 金融 业 : 阿里 通过 对 用 户 消费 习惯 的 大 数据 分 析 ， 已 经 可 以 将 余额 宝 第 二 天 
的 赎 回 规模 的 预测 准确 率 保持 在 97% 以 上 ， 连 “ 双 十 一 ”等 大 促销 造成 的 大 规模 资金 
流动 也 不 例外 ; 中 信和 银行 与 中 兴 通 讯 大 数据 平台 强 强 联 合 ， 打 造 一 个 全 新 的 “数据 
银行 ”， 利 用 金融 大 数据 更 科学 地 实现 加 强风 险 管 控 、 精 细 化 管理 、 业 务 创新 等 业 
务 转型 。 

在 公共 管理 行业 : 中 兴 通 讯 为 2014 南 京 青 奥 会 打造 的 “ 环 宁 护城河 ”项 目 ， 将 


第 一 部 分 
大 数据 架构 师 入 门 
各 种 警 务 数据 在 大 数据 平台 上 集中 处 理 ， 从 时 间 和 空间 两 个 维度 进行 实时 统计 和 展 
现 ， 为 青 奥 安保 工作 部 署 提供 科学 的 决策 依据 。 

越 来 越 多 的 实践 证 明 ， 大 数据 运用 可 以 为 各 个 行业 带 来 巨大 的 收益 。 

麦肯锡 在 它 的 报告 中 ， 根 据 各 行业 利用 大 数据 技术 获取 利益 的 潜力 ， 将 各 个 行 
业 分 为 5 个 组 别 。 

(1) 计算 机 和 电子 产品 及 信息 行业 必然 能 够 从 大 数据 中 获取 巨大 利益 ， 该 行业 本 
身 就 有 巨大 的 信息 池 且 具有 快速 创新 的 特点 ， 与 大 数据 天 然 吻 合 。 

(2) 社会 公共 管理 及 金融 业 则 需要 通过 细 分 和 自动 化 算法 来 克服 技术 障碍 ， 从 而 
大 为 受益 。 

(3) 建筑 、 教 育 服务 、 艺 术 和 娱乐 等 行业 则 面临 着 获取 海量 数据 价值 的 系统 障 
碍 。 当 然 ， 如 果 这 些 障碍 是 可 以 克服 的 ， 则 也 可 以 从 大 数据 中 获 益 。 

(4) 制造 业 、 批 发 贸易 等 行业 全 球 交 易 程度 高 ， 如 果 能 够 克服 数据 和 技术 上 的 障 
碍 ， 则 从 行业 普遍 意义 上 讲 获 益 巨 大 ， 但 面临 的 困难 同样 不 小 。 

(5) 零售 、 医 疗 、 住 窒 和 食物 等 本 地 服务 行业 全 球 交易 程度 低 ， 则 从 行业 普遍 意 
义 上 讲 ， 从 大 数据 中 获取 价值 的 潜力 相对 较 小 。 


1.3 大 数据 技术 当前 状态 


随 着 大 数据 在 各 个 行业 的 广泛 应 用 ， 各 个 行业 在 得 到 大 数据 带 来 的 收益 的 同 
时 ， 也 在 推动 着 大 数据 技术 的 飞速 发 展 。 

不 同 的 行业 有 着 不 同 的 业务 特征 ， 进 而 也 有 不 同 的 需求 。 如 何 满足 这 些 不 断 涌 
现 的 需求 ， 成 为 推动 大 数据 技术 发 展 的 动力 。 


1. 零售 行业 


(1) 业务 特征 
零售 行业 同类 产品 的 差异 小 ， 可 替代 性 强 ， 提 高 销售 收入 离 不 开 出 色 的 购物 体 


Q 本 节 行业 分 析 内 容 改 写 自 《大 数据 生命 周期 全 景 与 产业 发 展 I[ADP 模 型 研究 ( 赛 迪 顾 
问 )》， 改 写 方式 : 缩写 。 


验 和 客户 服务 。 同 时 ， 零 售 行业 需要 增强 产品 流转 率 ， 实 现 快速 营销 。 

(2) 需求 分 析 

提升 客户 购物 体验 的 一 个 关键 途径 是 精准 营销 ， 而 精准 营销 的 核心 是 用 户 消费 
行为 分 析 ， 即 用 户 识别 。 这 个 过 程 涉 及 消费 历史 记录 、 电 话 /WEB/ 电 子 邮件 等 数据 中 
折射 出 的 用 户 消费 习惯 识别 。 

快速 营销 的 分 析 和 决策 基于 对 产品 产 、 销 、 存 及 物流 各 个 环节 的 大 数据 分 析 ， 
涉及 条 码 技术 、 标 签 技术 、 全 息 扫描 技术 、RF 技 术 等 技术 。 


2. 互联 网 行业 


(1) 业务 特征 

互联 网 行业 主要 特征 之 一 是 数据 量 呈 爆炸 性 增长 ， 数 据 结构 类 型 日 趋 复杂 。 各 
种 类 型 的 信息 和 数据 都 呈现 爆炸 式 地 增长 。 全 球 90% 的 数据 都 是 在 过 去 两 年 中 生成 
的 。 在 未 来 几 年 ， 数 字 信息 会 呈现 更 加 惊人 的 增长 ， 预 计 到 2020 年 ， 信 息 和 数据 总 
量 将 增长 44 倍 。 

另 一 个 特征 是 用 户 行为 丰富 ，WEB 社 群 关系 复杂 。 互 联网 已 经 不 再 是 单纯 地 浏 
览 网 页 信息 ， 互 动 已 经 成 为 主要 方式 。 用 户 行为 和 网 络 中 的 社会 群体 变 得 更 加 多 样 
化 、 复 杂 化 。 

(2) 需求 分 析 

用 户 粘 性 对 于 互联 网 公司 来 说 是 至 关 重 要 的 测评 指标 。 而 从 爆炸 性 增长 的 数据 
和 复杂 的 用 户 行为 中 ， 提 取 有 价值 的 信息 ， 分 析 用 户 行为 ， 建 立 用 户 模型 ， 来 提高 
用 户 体验 、 增 加 用 户 粘性 ， 是 大 数据 技术 发 展 的 挑战 和 动力 。 


3. 电信 行业 


(1) 业务 特征 

数据 量 激增 ， 保 存 时 间 长 。 近 些 年 ， 由 于 无 线 上 网 和 智能 手机 的 推广 ， 导 致 
电信 行业 数据 量 呈 现 爆炸 性 增长 。 从 全 球 移动 网 络 中 语音 和 数据 流量 的 状况 来 看 ， 
2009 年 末 ， 数 据 流量 超过 了 语音 流量 ， 到 2011 年 数据 流量 已 经 超过 语音 流量 的 两 
倍 。 根 据 研究 预测 ， 到 2015 年 全 球 移动 数据 流量 将 比 2010 年 上 升 26 倍 。 电 信行 业 不 
仅仅 数据 量 大 ， 而 且 保存 时 间 长 ， 一 般 电 信行 业 要 求 数据 保存 2 年 6 个 月 。 

受众 群体 大 ， 市 场 饱和 度 高 。 电 信 业 务 已 经 是 人 们 生活 中 的 必需 品 ， 用 户 数量 
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非常 巨大 ， 整 体 市 场 饱和 度 高 。 

(2) 需求 分 析 

一 方面 ， 流 量 和 用 户 的 激增 ， 给 现 有 网 络 带 来 了 巨大 的 压力 。 如 何 保 持 现 有 网 
络 的 稳定 高 效 运转 ， 成 为 各 大 运营 商 首先 需要 考虑 的 问题 。 而 大 数据 技术 能 解决 这 
一 问题 ， 例 如 中 兴 通 讯 提 出 的 “基于 大 数据 技术 的 电信 系统 反馈 环 理念 ”。 

另 一 方面 ， 运 营 商 面临 着 从 业务 提供 者 到 管道 提供 者 的 转变 。 如 何在 这 个 转变 
过 程 中 ， 高 效 、 合 理 地 优化 网 络 建设 ， 同 时 能 够 发 现 潜 在 的 信息 应 用 需求 并 转变 为 
商业 价值 ， 也 需要 大 数据 技术 的 支撑 。 


4. 金融 行业 

(1) 业务 特征 

金融 业 有 着 数据 池 积累 巨大 的 天 然 优 势 ， 但 同时 如 何 挖掘 数据 价值 也 成 为 挑 
战 。 另 外 ， 金 融 业 是 高 风险 行业 ， 有 着 其 他 行业 不 可 比拟 的 安全 性 要 求 。 

(2) 需求 分 析 

从 大 量 数据 中 挖掘 有 价值 的 信息 ， 并 将 其 作为 判断 的 依据 ， 及 时 准确 地 进行 金 
融 智能 决策 ， 是 金融 业 迫 切 的 需求 。 

金融 业 对 安全 的 苛刻 要 求 ， 成 为 大 数据 技术 的 挑战 。 

5. 交通 行业 

(1) 业务 特征 

1) 数据 量 大 ， 数 据 类 型 多 。 随 着 车 辆 保有 量 的 不 断 攀升 ， 交 通 综合 监控 呈 多 
维 、 立 体 化 趋势 ， 数 据 分 析 面 对 的 是 文本 、 语 音 、 图 片 、 视 频 等 多 种 类 型 数据 的 飞 
速 增长 。 

2) 实时 性 要 求 高 。 交 通 系 统 受 很 多 因素 的 影响 ， 时 间 、 天 气 、 路 况 、 突 发 事件 
等 都 让 交通 状况 产生 突然 并 且 累积 性 的 变化 。 

(2) 需求 分 析 

面 对 多 种 类 型 的 海量 数据 加 上 极 高 的 实时 性 要 求 ， 大 数据 技术 需要 在 存储 、 计 
算 、 分 析 、 处 理 等 方面 表现 出 超 强 的 性 能 ， 才 能 满足 对 瞬息 万 变 的 交通 状况 进行 及 
时 调度 和 快速 响应 的 要 求 。 
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1.4 大 数据 的 技术 发 展 趋 势 


随 着 大 数据 技术 的 发 展 ，IT 相 关系 统 也 正 发 生 着 变革 。 系 统 的 硬件 设计 、 软 件 
设计 ， 甚 至 商业 部 署 都 开始 以 数据 为 中 心 。 也 正 是 在 这 些 实践 和 应 用 中 ， 发 现 痛 点 
并 解决 痛 点 的 过 程 和 探索 ， 反 过 来 推动 大 数据 技术 的 发 展 。 

从 技术 层面 讲 ， 以 下 几 个 方面 将 是 大 数据 的 热点 。 

(1) 硬件 对 架构 的 冲击 

大 数据 对 性 能 的 要 求 非常 高 ， 而 硬件 的 变化 对 性 能 会 产生 直接 而 巨大 的 影响 ， 
因此 当 硬 件 提升 时 ， 会 推动 大 数据 系统 架构 的 变革 ， 以 达到 充分 利用 硬件 、 大 幅度 
提升 性 能 的 目的 。 

例如 ， 下 一 代 非 易 失 内 存 (NVRAM) 的 性 能 接近 DRAM( 最 短 延迟 为 DRAM 的 
2 一 3 倍 )， 这 将 对 文件 系统 为 主 的 存储 架构 产生 巨大 影响 ， 同 时 ， 远 程 直接 数据 存 取 
(RDMA) 可 将 NVRAM 连 接 成 PB 级 (或 更 大 ) 资 源 池 ， 实 现 更 简洁 的 内 存 计算 ， 这 将 促 
进 内 存 计算 发 展 。 

而 针对 数据 的 不 同 场景 的 专用 硬件 ， 将 直接 改变 对 应 的 系统 架构 。 例 如 ， 对 于 
很 少 使 用 的 大 容量 数据 ， 可 以 开发 高 密度 / 低 IO/ 低 功 耗 的 低 成 本 存储 。 

当 大 数据 系统 部 署 在 云 /虚拟 化 系统 上 时 ， 系 统 架 构 需 要 考虑 : 存储 部 署 在 虚拟 
机 上 时 ， 如 何 保证 高 IO 需求 ，MR 等 计算 框架 ， 采 用 移动 计算 到 数据 侧 的 模式 ， 其 计 
算 资源 如 何 虚拟 化 ， 等 等 。 

(2) 计算 框架 

随 着 大 数据 应 用 逐渐 广泛 ， 单 一 的 计算 框架 已 经 无 法 满足 需求 。2014 年 图 灵 奖 
获得 者 Stonebraker 认 为 : 一 刀 切 (one size fits all) 的 数据 处 理 架 构 将 寿终正寝 ， 在 流 处 
理 、 数 据 仓库 、 数 据 库 和 科学 数据 库 等 方面 会 出 现 专用 化 引擎 。 

SPARK 在 持续 走 热 ， 也 揭示 了 从 单一 的 MapReduce 计 算 框架 逐渐 演变 为 多 种 计 
算 框架 并 存 的 趋势 。 未 来 的 计算 框架 将 以 通用 计算 框架 为 主 (SPARK 很 可 能 成 为 主 
流 )， 在 特殊 场景 下 辅 以 较为 专业 的 计算 框架 。 

(3) 数据 封装 的 中 间 件 

实现 数据 的 封装 ， 是 生态 型 平台 必须 具备 的 功能 。 大 数据 中 间 件 层 就 是 实现 这 
一 功能 的 组 件 。 它 位 于 应 用 层 与 底层 数据 库 之 间 ， 屏 项 掉 底层 传统 数据 库 、MPP、 
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Hadoop 等 数据 存储 的 差异 ， 同 时 为 上 层 应 用 提供 统一 的 开发 接口 ， 让 应 用 层 无 须 考 
虑 底层 的 实现 。 

在 从 传统 架构 向 大 数据 架构 演进 的 过 程 中 ， 多 技术 混搭 是 现实 的 需求 ， 而 大 数 
据 中 间 件 层 使 得 混搭 方案 成 为 可 能 。 

(4) 非 结构 化 数据 处 理 

在 今天 的 互联 网 数据 中 ， 结 构 化 数据 仅仅 占 到 10%， 非 结构 化 数据 成 为 最 重要 
的 源 数据 。 非 结构 数据 通常 有 音频 /视频 、 文 本 、 特 定 行业 数据 (如 电信 信 令 ) 等 。 对 
音频 /视频 数据 的 分 析 ， 已 经 有 较为 成 熟 的 分 析 软 件 ， 对 于 特定 行业 数据 ， 业 内 相关 
公司 已 经 开始 探索 ， 如 中 兴 通 讯 对 电信 信 令 的 大 数据 分 析 ; 而 文本 分 析 也 是 最 近 在 
开源 社区 较为 活跃 的 话题 ， 通 过 和 不 同行 业 的 结合 ， 可 以 产生 较 多 衍生 应 用 。 

(5) 智慧 发 现 

学 习 可 以 分 为 数据 、 信 息 、 知 识 、 智 慧 4 个 层次 ， 其 中 ， 智 慧 发 现在 未 来 很 重 
要 。 在 智慧 发 现 领域 ， 人 工 智能 与 大 数据 有 较 多 的 交叉 重合， 其 中 深度 学 习 是 一 个 
热点 。 深 度 学 习 是 通过 构建 具有 很 多 层 的 学 习 模型 和 海量 的 训练 数据 ， 来 学 习 更 有 
用 的 特征 。 

(6) 可 视 化 

只 有 能 被 人 类 所 理解 的 数据 ， 才 是 有 价值 的 数据 ， 而 可 视 化 是 最 直观 、 最 容易 
被 理解 的 展示 方式 。 

并 不 是 只 有 传统 的 结构 化 数据 可 以 可 视 化 ， 操 作 、 流 程 、 信 息 等 ， 一 切 皆 可 可 
视 化 。 当 前 可 视 化 技术 呈现 如 下 三 个 趋势 。 

1) 扁平 化 ， 即 放弃 一 切 装饰 效果 ， 所 有 界面 元 素 的 边界 都 干净 利落 ， 更 加 简单 
直接 地 将 事物 的 工作 方式 展示 出 来 ， 减 少 认 知 障碍 的 产生 。 同 时 ， 扁 平 化 设计 更 简 
约 ， 可 以 保证 在 所 有 的 屏幕 尺寸 上 都 有 相同 的 展示 效果 。 

2) 动态 化 、 可 交互 ， 即 动态 图 形 的 表现 力 更 丰富 ; 通过 界面 的 拖 搜 、 点 击 、 放 
大 缩小 ， 即 可 完成 条 件 选择 和 切换 。 采 用 更 少 的 菜单 和 更 少 的 对 话 框 ， 而 不 用 复杂 
的 条 件 选 择 对 话 框 。 

3) 多 维度 、 多 图 联动 ， 即 通过 多 张 图 从 不 同 维度 展示 同一 个 东西 ， 即 可 在 交互 
时 ， 通 过 操作 一 张 图 引起 其 他 相关 图 的 联动 ， 并 且 可 以 同时 获得 更 多 的 信息 。 
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又 是 一 个 风 和 日 丽 的 下 午 ，Boss 将 小 明 叫 到 办 公 室 ， 办 公 桌 上 是 一 份 A 大 学 的 某 
大 数据 咨询 项 目的 case，Boss 说 : “上 次 的 大 数据 报告 写 的 不 错 ， 后 生 可 晤 啊 ! 这 里 
有 个 case， 正 好 让 你 实战 一 下 。” 


2.1 实验 型 部 署 场景 


2.1.1 背景 介绍 


A 大 学 是 国内 知名 大 学 ， 其 计算 机 科学 与 应 用 数学 都 是 国内 学 科 的 翘楚 ， 该 校 毕 
业 生 很 多 都 进入 相关 研究 机 构 或 国际 著名 IT 企业 任职 。 

随 着 大 数据 技术 与 应 用 的 蓬勃 发 展 以 及 国家 大 数据 发 展 战略 在 学 科 建设 上 的 深 
入 落实 ，A 大 学 决定 抓 住 该 历史 机 遇 ， 充 分 发 挥 其 学 科 优势 ， 在 大 数据 分 析 领 域 培养 
出 新 的 优势 学 科 。 因 此 ，A 大 学 推动 计算 机 科学 系 与 应 用 数学 系 成 立 一 个 跨 学 科 联合 
实验 室 ， 该 实验 室 (后 文 统称 大 数据 科学 实验 室 ) 紧 密 结合 社会 需求 ， 响 应 时 代 呼 唤 ， 
定位 于 培养 能 够 适应 时 代 要 求 的 大 数据 人 才 。 


2.1.2 面临 的 问题 


大 数据 科学 实验 室 作 为 计算 机 科学 系 与 应 用 数学 系 的 联合 实验 室 ， 承 担 了 两 个 
系 在 计算 机 科学 与 应 用 数学 方向 上 的 本 科 、 研 究 生 教学 任务 。 与 此 同时 ， 应 用 数学 
上 的 很 多 科学 研究 任务 需要 使 用 大 量 的 计算 资源 进行 数据 分 析 ， 也 需要 使 用 大 数据 
科学 实验 室 的 设备 。 

而 这 两 个 学 科 方 向 以 及 不 同类 型 的 教学 、 科 研 任务 对 大 数据 科学 实验 室 的 设备 
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有 竞争 关系 ， 有 时 相互 间 甚至 有 冲突 ， 影 响 了 各 项 任务 的 顺利 进行 。 如 计算 机 科学 
的 本 科教 学 大 纲 中 有 实验 课程 ， 安 排 本 科 生 动手 搭建 基本 的 Hadoop 环 境 并 在 此 基础 
上 开发 简单 的 分 析 应 用 ， 而 应 用 数学 研究 需要 大 量 的 计算 资源 对 海量 数据 进行 机 器 
学 习 模 型 训练 ， 这 两 种 任务 之 间 就 有 明显 的 竞争 关系 。 甚 至 经 常 因为 机 器 分 配 和 人 
员 操 作 失误 将 运行 了 数 百 个 CPU 时 间 的 模型 训练 任务 意外 关闭 ， 这 又 进一步 加 剧 了 
问题 的 严重 性 。 

虽然 有 一 笔 资 金 可 用 于 购买 设备 ， 但 预算 并 不 充分 ， 对 于 如 何 配 置 软 硬 件 产生 
了 分 歧 。 

一 方面 预算 有 限 ， 另 一 方面 又 想 以 最 高 的 性 价 比 获得 尽量 多 的 计算 和 存储 能 
力 ， 甚 至 要 有 不 受 限制 的 节点 数量 ， 这 真是 悉 坏 了 实验 室 主任 ， 只 能 求助 于 专业 的 
大 数据 咨询 师 。 


2.1.3 需求 分 析 


小 明 与 几 位 实验 室 老师 和 学 生 坐 下 来 聊 了 聊 发 现 ， 大 数据 科学 实验 室 开展 的 实 
验 包括 以 下 几 部 分 。 

(1) 教学 实验 :安装 大 数据 环境 ， 在 此 基础 上 设计 并 运行 简单 的 分 析 应 用 ， 这 部 
分 应 用 对 存储 和 计算 资源 的 要 求 比较 低 。 

(2) 新 架构 研究 与 实验 :对 大 数据 存储 、 计 算 架构 进行 实验 研究 ， 并 通过 大 量 的 
压力 测试 对 架构 性 能 进行 评估 和 改进 ， 这 部 分 应 用 对 存储 和 计算 资源 要 求 一 般 都 比 
较 高 。 

3) 机 器 学 习 研究 实验 :训练 机 器 学 习 模 型 ， 包 括 神 经 网 络 模型 、 统 计 模 型 、 图 
模型 等 ， 主 要 是 计算 密集 型 的 批 处 理应 用 。 

小 明 还 了 解 到 由 于 实验 室 成 立时 间 短 ， 实 验 室 设 备 虽 然 安排 了 专人 管理 ， 但 缺 
乏 管 理工 具 的 支持 ， 仅 通过 机 器 密码 实现 简单 的 安全 管理 。 

实验 室 设 备 构成 复杂 ， 既 有 高 性 能 服务 器 ， 又 有 老式 桌面 机 ， 而 且 各 类 实验 对 
计算 资源 占用 率 不 同 ， 因 此 通过 管理 员 人 工 对 设备 资源 进行 调度 效果 不 佳 。 
因为 各 类 实验 对 计算 资源 的 消耗 差异 很 大 ， 有 些 实验 严重 浪费 了 宝贵 的 计算 资源 。 

实验 所 用 数据 都 是 可 公开 获得 的 开放 数据 ， 对 数据 安全 性 要 求 不 高 ， 各 数据 集 
的 规模 大 小 不 同 ， 但 均 不 超过 GB。 


= 


第 一 部 分 
大 数据 架构 师 入 门 

经 过 上 述 摸底 ， 小 明 对 问题 胸有成竹 ， 这 是 计算 密集 型 、 存 储 规模 小 、 数 据 安 
全 性 要 求 低 又 相对 封闭 的 系统 。 

小 明 很 快 给 出 咨询 建议 : 使 用 廉价 的 PC 服务 器 + 虚拟 化 解决 方案 + 开源 全 栈 式 数 
据 分 析 平 台 。PC 服 务 器 就 能 满足 存储 需求 ， 同 时 也 能 获得 不 错 的 计算 能 力 。 采 用 虚 
拟 化 方案 提高 机 器 的 利用 率 ， 同 时 减少 实验 间 的 干扰 。 开 源 全 栈 式 数据 分 析 平 台 更 
是 能 够 将 神经 网 络 模型 、 统 计 模 型 、 图 模型 的 运算 统一 在 一 个 计算 框架 下 。 

小 明 回 到 单位 很 快 完成 了 咨询 报告 的 撰写 并 提交 到 老板 邮箱 ， 第 一 个 咨询 项 目 
大 功 告 成 ! 


2.2 中 小 型 部 署 场景 


第 二 天 电话 里 又 传 来 Boss 低 沉 的 声音 : “小 明 马 上 到 我 办 公 室 来 一 下 ! ”小 
明 原 本 欢乐 的 心脏 顿时 咯 哮 一 声 ， 难 道 报告 Boss 不 满意 ?小 明志 起 地 迈进 Boss 办 公 
室 ， 没 想到 Boss 拍 着 小 明 的 肩膀 说 : “最 近 干 得 不 错 ， 上 个 case 客 户 很 满意 ， 我 这 里 
还 有 一 个 case， 我 看 好 你 哟 ! ” 

小 明 从 Boss 手 中 拿 到 case 材 料 ， 看 着 眼熟 ， 不 是 上 周 在 网 上 大 搞 营 销 的 那个 B 公 
司 嘛 ， 他 们 的 产品 设计 新 颖 ， 用 户口 碑 还 挺 不 错 的 。 小 明明 白 ，Boss 这 是 在 向 他 委 
以 重任 ， 于 是 小 明 立 刻 向 Boss 立 下 军令 状 ， 签 下 任务 承诺 书 。 


小 明 回 到 办 公 位 立刻 对 B 公 司 进行 了 全 方位 搜索 ，B 公 司 是 行业 新 玩家 ， 但 是 凭 
借 自己 在 用 户 体验 方面 的 独门 绝技 ， 很 快 站 稳 了 脚跟 ， 并 且 拥 有 了 忠实 的 客户 群 。B 
公司 虽然 员工 规模 不 大 ， 但 业务 发 展 异常 迅猛 ， 正 向 行业 领头 羊 地 位 发 起 总 攻 。 

小 明 对 B 公 司 做 了 360 度 调查 后 ， 拨 通 B 公 司 电话 说 明 来 电 意图 ， 并 约定 当面 拜 
访 B 公 司 进行 现场 调研 。 

B 公 司 老 总 接待 了 小 明 ， 并 向 小 明 介绍 了 咨询 目的 。B 公 司 是 一 家 新 创立 的 企 
业 ， 其 最 初 的 企业 定位 就 是 以 极致 的 用 户 体验 与 客户 参与 为 差异 化 竞争 点 ， 通 过 微 
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信 、 论 坛 、 问 答 网 站 等 各 种 渠道 建立 起 与 用 户 的 密切 联系 与 紧密 互动 ， 直 接 将 客户 
音 融 入 产品 开发 流程 ， 提 升 客户 的 参与 度 与 粘度 ， 提 高 产品 的 用 户 体验 。 同 时 B 公 
司 特别 重视 市 场 分析 与 品牌 战略 ， 将 量化 的 市 场 分 析 融 入 决策 流程 ， 所 有 重要 决策 
都 要 有 数据 支撑 ， 并 且 不 遗 余力 地 进行 品牌 建设 ， 打 造 科技 、 时 尚 的 企业 形象 。 这 
种 独特 的 竞争 策略 取得 了 巨大 的 成 功 ， 使 得 B 公 司 业务 规模 持续 保持 高 速 增长 。 

老总 还 邀请 小 明 参 观 了 客服 中 心 ， 安 排 小 明 参加 了 某 产品 开发 团队 、 市 场 分 析 
团队 的 例会 ， 并 与 团队 成 员 进行 了 面对面 交谈 ， 还 邀请 小 明 参 加 了 一 个 产品 的 策划 
会 。 小 明确 实感 受到 这 是 一 家 朝气 蓬勃 的 公司 ， 虽 然 工 作 压 力 很 大 ， 但 每 位 员工 都 
清楚 地 知道 自己 的 责任 并 为 之 奋斗 。 


2.2.2 面临 的 问题 


在 B 公 司 开发 团队 例会 和 产品 策划 会 上 ， 小 明 发 现 各 种 各 样 的 数据 、 图 表 是 团队 
做 决策 的 重要 依据 。 而 这 些 报表 都 是 由 市 场 分 析 团 队 综合 网 络 、 呼 叫 中 心 等 各 种 用 
户 沟通 渠道 反馈 的 用 户 需 求 ， 以 及 各 类 竞争 厂商 相关 竞 情 信息 ， 进 行 深入 分 析 得 到 
的 深度 洞察 ，B 公 司 虽然 年 轻 ， 但 却 有 一 个 能 准确 把 握 客户 需求 与 竞 情 事态 的 分 析 团 
队 。B 公 司 处 于 业务 的 快速 增长 期 ， 对 数据 分 析 的 需求 也 持续 增长 ， 但 合格 的 数据 分 
析 师 短缺 的 问题 却 很 难 在 短期 内 通过 招聘 和 内 部 培养 解决 。 小 明 在 与 分 析 团 队 沟通 
中 了 解 到 ，B 公 司 信息 化 程度 处 于 初级 水 平 ， 信 息 的 采集 需要 分 析 人 员 人 工 进 行 ， 耗 
时 费力 。 而 数据 分 析 与 可 视 化 主要 依赖 Excel 表 格 ， 而 Excel 模 版 开发 的 周期 长 ， 响 应 
市 场 、 开 发 团队 的 需求 变化 不 灵活 ， 随 着 产品 线 的 扩大 ， 新 的 分 析 需 求 不 断 涌现 ， 
而 用 户 的 增长 也 使 得 数据 量 急剧 上 升 ， 传 统 的 方式 已 经 逐渐 不 能 应 对 新 的 形势 。 因 
为 采用 人 工 采 集 的 方式 ， 因 此 原始 数据 格式 不 一 ， 保 存 归档 也 没有 工具 支撑 ， 导 致 
数据 的 重用 性 差 。 分 析 团队 迫切 地 需要 自动 化 数据 采集 、 清 洗 与 预 处 理 流 程 ， 并 且 
需要 更 加 高 效 的 数据 分 析 与 可 视 化 工具 。 

同样 面临 人 手 缺 乏 问题 的 还 有 客服 团队 ， 随 着 客户 群 的 快速 增长 ， 客 服 团 队 虽 
然 一 再 扩充 ， 仍 然 难 以 满足 实际 需求 ， 而 场地 、 成 本 等 其 他 因素 也 制约 了 客服 团队 
进一步 的 扩大 。 小 明 参 观 客服 中 心 时 了 解 到 客服 系统 虽然 实现 了 统一 通信 ， 建 立 了 
客户 资料 数据 库 ， 但 用 户 问题 的 解答 全 部 依赖 话务员 经 验 ， 并 且 每 次 客户 沟通 都 要 
客服 人 员 手 工 录入 客户 资料 数据 库 ， 进 一 步 加 大 了 话务员 的 工作 压力 。 与 此 同时 ， 
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虽然 花费 巨大 力气 建立 了 客户 资料 数据 库 ， 但 却 没 有 充分 地 发 挥 出 其 作用 。 客 服 团 
队 人 迫切 需要 一 个 智能 机 器 人 帮助 自动 回答 一 些 常见 问题 ， 并 能 够 自动 地 补充 客户 资 
料 数 据 库 ， 以 减轻 话务员 的 压力 。 

B 公 司 老总 是 典型 的 精英 人 才 ， 关 于 信息 化 和 数据 分 析 都 有 更 深入 的 思考 ， 考 虑 
到 公司 未 来 几 年 可 预期 的 高 速 增长 ， 老 总 希望 能 够 高 起 点 地 搭建 一 套 大 数据 系统 ， 
将 数据 的 采集 、 清 洗 、 预 处 理 、 存 储 、 分 析 自 动 化 ， 重 构 现 有 的 应 用 。 同 时 基于 大 
数据 平台 和 累积 的 用 户 数据 、 问 答 数据 和 各 类 实时 数据 ， 以 构建 全 新 的 用 户 画像 
系统 为 核心 ， 依 此 构建 与 情 监控 、 自 动 问答 、 客 户 关怀 等 上 层 应 用 。 投 资 预算 相对 
宽松 。 

完成 对 客户 的 拜访 ， 小 明 带 着 调研 资料 回 到 公司 ， 马 上 投入 到 紧张 的 需求 分 析 中 。 


2.2.3 ”需求 分 析 


从 调研 可 见 ，B 公 司 现 有 业务 系统 比较 简单 ， 若 将 现 有 业务 全 部 迁移 到 新 系统 中 
重新 实现 ， 则 系统 的 设计 受 历史 因素 约束 少 ， 在 预算 宽裕 的 前 提 下 ， 系 统 架构 可 以 
主要 基于 当前 和 未 来 的 业务 需求 进行 设计 。 

从 调研 结果 看 ，B 公 司 的 需求 涉及 数据 的 采集 、 清 洗 、 预 处 理 、 存 储 与 分 析 计 算 
几 个 方面 ， 所 需 实现 的 业务 都 是 BI、 用 户 画 像 、 知 识 体系 、 知 识 管理 、 与 情 监控 、 
问答 系统 等 非 关 键 型 业务 。 数 据 规模 中 等 ， 对 计算 能 力 、 实 时 性 、 高 可 用 性 、 宛 余 
备份 的 要 求 都 不 太 苛刻 。 但 因为 涉及 的 都 是 公司 核心 数据 ， 因 此 对 数据 安全 性 要 求 
很 高 。 

数据 来 自 外 部 的 互联 网 、 社 交 网 络 和 内 部 的 呼叫 中 心 等 多 个 渠道 ， 除 历史 数据 
统一 迁移 外 ， 数 据 主要 以 增 量 的 方式 积累 ， 需 要 相应 的 数据 采集 接口 ， 且 由 于 数据 
来 源 的 多 样 性 导致 数据 形式 与 质量 不 一 ， 需 要 一 套 完善 的 ETL 系 统管 理 数据 的 接 入 、 
清洗 与 预 处 理 。 

原始 数据 很 大 一 部 分 是 语音 、 文 字 等 非 结 构 化 类 型 的 数据 ， 需 要 采用 相应 的 自 
然 语 言 处 理 技术 进行 处 理 和 分 析 ， 这 类 应 用 主要 是 以 流 式 应 用 为 主 。 结 构 化 的 数据 
主要 用 来 做 决策 支持 ， 需 要 搭建 数据 仓库 和 相应 BI 系统 ， 这 类 应 用 主要 以 批 处 理 和 
交互 式 应 用 为 主 。 

B 公 司 前 期 没有 专门 的 机 房 和 专业 IT 管理 员 ， 机 房 工 程 设计 与 施工 能 力 缺失 ， 在 
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需要 部 署 和 运 维 中 等 规模 大 数据 集群 的 前 提 下 ， 需 要 采用 turn-key 交 付 方式 。 在 预算 
充足 的 情况 下 ， 为 减轻 对 IT 管理 的 压力 ， 应 尽量 选择 成 熟 、 功 能 完善 的 大 数据 平台 
管理 系统 。 

B 公 司 对 本 次 上 大 数据 非常 重视 ， 成 立 了 以 老总 为 第 一 负责 人 的 领导 小 组 ， 但 B 
公司 整体 的 IT 能 力 较 欠 缺 ， 需 要 抽取 骨干 人 员 尽 早 接受 专业 培训 ， 并 且 直 接 参 与 大 
数据 建设 工作 。 随 着 数据 分 析 工具 的 变化 ， 分 析 团队 也 应 抽取 骨干 人 员 尽早 接 受 新 
工具 的 培训 和 使 用 。 

中 兴 通 讯 大 数据 平台 DAP 是 经 过 大 量 实践 检验 的 、 成 熟 的 大 数据 平台 ， 能 够 提 
t 完 善 的 ETL、 存 储 、 流 分 析 、 批 处 理 分 析 、 管 理 、 安 全 和 技术 支持 能 力 ， 并 且 有 强 
大 而 富有 经 验 的 工程 服务 团队 ， 同 时 能 够 提供 IT 运 维 管理 、 大 数据 分 析 工 具 等 全 方 
位 的 培训 服务 。 因 此 ， 在 预算 充分 的 情况 下 ， 小 明 觉 得 硬件 采用 商用 服务 器 ， 软 件 
采用 DAP 大 数据 平台 的 方案 是 一 个 不 错 的 选择 。 

连续 奋战 了 一 个 昼夜 ， 小 明 终于 制定 出 来 一 套 基于 DAP 的 详细 技术 方案 并 交 到 
Boss 案 头 。Boss 看 了 小 明 的 方案 ， 大 加 赞赏 ， 将 小 明 提 升 为 团队 主管 。 


2.3 大 型 部 署 场景 


Boss 将 团队 交 给 小 明 带 领 的 同时 ， 又 给 了 小 明 另 一 个 更 大 的 挑战 。 

这 次 拿 到 的 任务 让 小 明 格外 兴奋 ， 这 是 一 家 著名 的 国际 化 大 公司 C 公 司 ， 希 望 采 
用 大 数据 技术 重 构 整合 自己 的 业务 系统 ， 当 前 阶段 虽然 项 目 目标 并 不 算 明晰 ， 但 公 
司 已 经 准备 了 过 亿 元 人 民 币 的 预算 规模 。 

能 够 为 C 公 司 量 身 定制 一 套 大 数据 方案 无 疑 是 业内 所 有 架构 师 的 梦想 ， 当 然 其 中 
的 挑战 也 是 毋庸 置疑 的 。 如 此 难得 的 机 遇 ， 像 鞭子 一 样 鞠 策 着 小 明 ， 促 使 小 明 立 马 
向 Boss 表 态 : 保证 带领 团队 完成 任务 ! 

小 明 立 即 召 集团 队 人 员 展 开 专题 研究 。 首 先 与 客户 领导 建立 联合 工作 机 制 ， 
收集 和 理解 客户 的 需求 ， 反 馈 需 要 求助 的 问题 ， 协 调 项 目 整体 进展 ， 其 次 与 客户 各 
部 门 IT 运 维 人 员 联 系 ， 摸 清 企业 的 数据 视图 与 业务 流程 ; 最 后 ， 在 前 面 工 作 的 基础 
上 ， 与 客户 各 部 门 的 业务 人 员 一 起 制订 业务 的 开发 与 交割 方案 。 
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C 公 司 拥有 长 期 的 信息 化 建设 历史 和 富有 经 验 的 IT 管理 团队 ， 其 系统 信息 化 水 平 
较 高 ， 各 种 类 型 的 生产 系统 已 经 在 公司 运行 多 年 ， 并 积累 了 海量 的 历史 数据 。 在 大 
数据 不 断 重 塑 互联 网 行业 ， 并 不 断 向 各 种 传统 行业 渗透 的 浪潮 下 ，C 公 司 也 希望 引入 
大 数据 相关 的 技术 ， 为 公司 开拓 新 的 价值 增长 点 。 

为 保障 项 目 成 功 实施 ，C 公 司 也 组 建 以 首席 技术 官 (CTO) 为 总 负责 人 、 以 各 业务 
部 门 主管 为 成 员 的 专项 小 组 。 小 明 带 领 团队 入 驻 C 公 司 后 立即 进入 专项 小 组 ， 并 将 各 
团队 派驻 到 相关 部 门 开 展 摸 底 调 研 。 


2.3.2 面临 的 问题 


作为 公司 高 层 领导 ，C 公 司 CTO 也 深 知 当前 存在 的 诸多 问题 ， 如 业务 系统 新 老 并 
存 ， 部 门 墙 导 致 数据 分 散 无 法 充分 利用 。C 公 司 对 于 大 数据 虽然 有 总 体 的 目标 ， 但 如 
何 让 项 目 满足 经 济 可 行 性 并 最 终 落 地 ， 尚 有 较 多 的 困惑 。 其 中 主要 集中 在 如 下 两 个 
方面 : 

(1) 大 数据 系统 与 现 有 生产 系统 之 间 是 怎样 的 关系 ? 采用 何 种 方式 获取 数据 ? 

(2) 利用 大 数据 技术 构建 何 种 业务 应 用 ? 如 何 证 明 这 些 业 务 应 用 产生 了 经 济 效益 ， 
而 不 仅仅 是 在 消耗 公司 宝贵 的 资源 ? 
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小 明 深 知 对 于 这 类 项 目 ， 数 据 集成 是 其 成 功 的 必要 条 件 ， 而 将 原本 分 散在 不 同 
的 业务 系统 中 的 数据 清洗 、 集 成 到 统一 的 大 数据 仓库 ， 再 借助 大 数据 平台 强大 的 分 
析 能 力 ， 无 疑 可 以 极 大 地 提升 数据 的 可 用 性 和 价值 ， 把 原本 沉睡 在 各 部 门 数 据 库 中 
孤立 的 、 无 法 利用 的 包 被 转化 为 有 价值 产 出 的 金 矿 。 

基于 大 数据 仓库 海量 的 存储 能 力 能 够 提供 的 企业 数据 视角 ， 结 合 大 数据 分 析 能 
力 ， 企 业 可 以 做 到 对 外 部 市 场 和 内 部 运营 状况 的 深度 洞察 ， 通 过 数据 分 析 与 指标 的 
量化 ， 提 高 企业 运行 的 透明 度 ， 进 而 提高 支撑 决策 的 精确 性 与 科学 性 ， 是 未 来 提高 
企业 竞争 力 的 核心 。 
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企业 现 有 的 应 用 系统 基于 的 技术 与 平台 复杂 多 样 ， 甚 至 存在 很 多 早已 过 时 的 技 
术 与 架构 ， 且 各 种 应 用 间 数 据 交互 与 共享 方式 异常 复杂 ， 导 致 整个 系统 的 维护 成 本 
很 高 。 而 且 由 于 各 个 应 用 系统 都 是 独立 建设 的 ， 独 享 硬件 资源 而 无 法 实现 设备 资源 
共享 ， 也 带 来 了 大 量 的 资源 浪费 ， 使 用 成 本 居 高 不 下 。 如 果 能 够 基于 大 数据 平台 逐 
渐 地 将 这 些 应 用 迁移 过 来 ， 统 一 在 一 套 大 框架 下 ， 借 助 大 数据 平台 先进 的 技术 架构 
和 能 力 ， 无 疑 可 以 极 大 降低 后 续 使 用 与 维护 成 本 。 

通过 与 团队 成 员 的 大 量 讨论 ， 小 明 很 快 制订 出 了 以 数据 集成 和 应 用 迁移 为 核心 
的 宏大 的 大 数据 实施 方案 。 当 小 明 满怀 信心 地 将 方案 提交 给 客户 后 ， 该 方案 却 得 到 C 
公司 CTO 与 各 部 门 主管 的 一 致 反对 。 

经 过 短暂 的 震惊 后 ， 小 明 马 上 做 出 调整 ， 分 别 与 CTO 和 部 门 主管 们 进行 深度 
交流 。 认 识 到 老 的 业务 系统 虽然 存在 一 些 问题 ， 但 已 经 稳定 运行 了 多 年 ， 可 靠 性 和 
功能 都 是 可 以 保证 的 。 而 新 方案 对 公司 当前 IT 系统 的 改变 太 大 ， 存 在 很 多 不 确定 因 
素 。 该 方案 不 仅 实施 周期 长 、 见 效 慢 ， 而 且 对 公司 的 运作 冲击 太 大 ， 造 成 很 大 的 成 
本 压力 。 

经 过 深入 调研 ， 小 明 对 客户 的 需求 理解 又 得 到 了 进一步 的 加 深 。 小 明 意 识 到 架 
构 师 在 设计 时 不 能 仅 考虑 技术 因素 ， 还 要 考虑 更 多 的 现实 约束 ， 包 括 投资 成 本 、 建 
设 周期 ， 以 及 抗 冲击 与 风险 。 大 数据 项 目的 建设 应 尽快 带 来 效益 亮点 ， 通 过 滚动 的 
规划 ， 人 快速 上 线 可 实现 经 济 效益 的 业务 应 用 ， 给 客户 以 信心 ， 并 进一步 推动 大 数据 
项 目的 持续 、 深 入 开展 。 

经 过 深入 的 分 析 ， 小 明 对 方案 进行 了 大 幅 修 改 。 在 大 数据 平台 层面 ， 强 调 大 数 
据 架 构 设计 的 灵活 性 和 可 演进 性 ， 为 系统 未 来 的 滚动 重 构 预 留 了 设计 余 量 ; 在 大 数 
据 业 务 应 用 层面 ， 优 先 规划 可 以 提升 当前 生产 系统 效率 的 应 用 ， 以 满足 经 济 可 行 性 
的 要 求 与 压力 。 

同时 ， 通 过 对 C 公 司 原 有 业务 流程 的 分 析 ， 小 明 在 新 规划 的 大 数据 仓库 基础 上 ， 
借助 海量 的 数据 及 庞大 的 计算 能 力 ， 构 建 了 一 组 可 反映 企业 运营 状态 的 KPI 指标 ， 并 
每 天 以 报表 的 形式 输出 。 

新 的 方案 提交 客户 后 ， 得 到 了 CTO 和 部 门 主管 们 的 一 致 认可 。 
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小 明成 功 地 完成 Boss 安 排 的 三 个 咨询 任务 后 ， 成 为 Boss 最 信任 的 左 膀 右 臂 。 但 
细心 的 小 明 发 现 ，Boss 每 次 看 他 的 眼光 ， 是 既 欣 赏 又 焦虑 。 这 焦虑 的 目光 ， 是 小 明 
心中 的 乌云 ， 挥 之 不 去 。 

终于 ， 小 明 鼓 起 勇气 询问 : “Boss， 您 觉得 我 最 近 的 工作 表现 如 何 ? 有 没有 需 
要 改进 的 地 方 ? ”Boss 哈 哈 一 笑 ， “你 做 得 很 好 ， 非 常 好 。 正 因为 你 这 么 优秀 ， 所 
以 我 才 焦虑 ， 毕 竟 世 界 上 只 有 一 个 小 明 啊 ， 如 果 我 同时 接 到 两 个 重量 级 的 case， 那 我 
上 哪里 去 找 两 个 小 明 呢 ? ” 

小 明 顿 时 明白 Boss 的 担忧 。“Boss， 请 你 放心 ， 您 对 我 有 知 遇 之 恩 ， 我 马上 将 
我 在 大 数据 项 目 中 所 考虑 的 关键 因素 做 归纳 总 结 ， 我 们 团队 中 的 任何 人 ， 只 要 经 过 
我 的 培训 ， 就 可 以 像 我 一 样 去 思考 ， 并 出 色 地 完成 任务 。” 

小 明 又 奋战 了 几 个 昼夜 ， 将 自己 大 数据 项 目 经 验 系统 化 ， 给 Boss 与 团队 提交 了 
一 份 “大 数据 方案 关键 因素 ”的 报告 ， 并 作为 自己 团队 的 培训 教材 。 


3.1 数据 存储 规模 与 数据 类 型 


构建 一 个 大 数据 系统 ， 首 先 需要 分 清 自身 系统 数据 的 基本 特征 ， 需 要 以 何 种 基 
础 设施 进行 数据 存储 、 分 析 ， 相 关 的 产业 链 有 哪些 解决 方案 ， 如 何 更 经 济 地 解决 自 
身 遇 到 的 问题 。 

对 于 系统 设计 者 来 讲 ， 首 先 需要 考虑 的 就 是 数据 存储 规模 ， 以 及 需 存储 与 处 理 
的 数据 类 型 。 存 储 规 模 将 大 致 确定 大 数据 平台 的 建设 规模 ， 而 数据 类 型 将 决定 所 需 
使 用 的 技术 以 及 复杂 度 。 

对 于 数据 存储 规模 ， 存 储 的 成 本 大 致 是 随 存储 规模 而 线性 上 升 的 。 在 项 目 规划 
的 初期 ， 需 要 对 各 数据 源 进行 梳理 ， 区 分 出 哪些 数据 需 在 大 数据 平台 中 集中 存储 ， 
哪些 不 需 集 中 存储 ， 并 对 各 个 数据 源 所 产生 数据 的 容量 与 规模 进行 量 级 上 的 估算 。 

在 各 主要 数据 源 规 模 估算 的 基础 上 ， 可 以 估算 出 全 系统 最 终 的 数据 存储 容量 。 
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在 存储 方案 确定 的 前 提 下 ， 可 以 进一步 估算 出 大 数据 平台 (不 包括 上 层 业务 系统 ) 的 建 
设 成 本 。 

对 于 数据 类 型 ， 由 于 IT 技术 的 繁荣 ， 造 就 了 系统 数据 的 多 样 性 。 文 本 、 图 像 、 
音频 、 视 频 或 其 他 二 进 制 数据 等 多 种 数据 ， 在 存储 、 传 输 、 交 换 、 流 转 中 形成 了 多 
样 化 的 数据 格式 ， 如 TXT、JPG、AVI 等 。 

从 数据 是 否 结构 化 的 角度 来 看 ， 其 有 三 大 类 。 其 一 是 结构 化 数据 ， 通 常 针对 数 
据 的 记录 形式 ， 可 用 二 维 表 结构 来 逻辑 表达 实现 的 数据 称 为 结构 化 数据 ， 如 大 多 数 
存储 在 数据 库 二 维 表 中 的 记录 、TSV 文 件 、 结 构 化 文本 等 ， 其 二 是 非 结构 化 数据 ， 
其 与 结构 化 数据 相反 ， 难 以 采用 二 维 表 结 构 来 定义 与 表达 ， 如 办 公文 档 、 文 本 、 图 
片 、 图 像 和 音频 /视频 等 ， 其 三 是 半 结 构 化 数据 ， 即 文件 本 身 提供 结构 自 描述 定义 ， 
数据 的 结构 和 内 容 混在 一 起 的 数据 称 为 半 结 构 化 数据 。 

传统 数据 库 擅长 处 理 结 构 化 数据 ， 但 对 非 结构 化 数据 与 半 结 构 化 数据 ， 则 很 难 
处 理 。 例 如 ， 对 于 文本 、 图 像 、 视 频 等， 往往 需要 专业 化 的 处 理 算法 ， 甚 至 随 着 业 
务 的 不 同 ， 针 对 相同 种 类 的 数据 源 ， 也 需要 采用 不 同 的 处 理 算法 与 软件 。 

所 以 在 项 目 规划 初期 ， 对 需要 处 理 的 数据 进行 梳理 ， 识 别 出 各 类 结构 化 数据 、 
非 结 构 化 数据 以 及 半 结 构 化 数据 的 种 类 ， 将 有 助 于 对 整个 系统 所 需要 的 技术 ， 以 及 
技术 复杂 度 进行 全 面 的 评估 。 


3.2 数据 来 源 与 数据 质量 


大 数据 时 代 ， 数 据 是 组 织 最 重要 的 资产 ， 掌 握 了 数据 就 掌握 了 发 展 的 命脉 。 所 
以 ， 数 据 获取 能 力 ， 以 及 数据 获取 质量 就 成 为 项 目 成 败 的 关键 点 。 

一 个 综合 性 的 系统 ， 往 往 需要 多 个 数据 源 提供 数据 ， 即 使 是 在 一 个 企业 内 部 ， 
往往 也 会 有 多 套 生产 系统 在 同时 运行 ， 这 些 并 行 的 生产 系统 共同 为 大 数据 平台 提供 
数据 。 由 于 涉及 数据 的 归属 问题 ， 以 及 企业 内 部 业务 流程 的 梳理 问题 等 ， 与 规划 相 
比 ， 往 往 数 据 的 可 获得 性 在 现实 中 要 困难 很 多 。 

在 项 目的 规划 初期 ， 需 要 对 相关 数据 源 进 行 识别 ， 并 甄别 出 有 风险 的 数据 源 ， 在 
项 目 规划 初期 即 上 升 至 决策 层 进行 决策 ， 避 免 出 现 项 目 做 完 后 无 米 下 锅 的 篮 座 境地 。 


二 区 二 一 


第 一 部 分 
大 数据 架构 师 入 门 
甚至 进一步 说 ， 如 果 关 键 的 数据 源 无 法 获得 ， 则 整个 项 目的 可 行 性 都 需要 重新 考虑 。 
关于 数据 质量 ， 这 往往 是 项 目 规划 阶段 容易 被 忽略 但 又 非常 关键 的 问题 。 由 
于 涉及 组 织 与 系统 之 间 的 对 接 与 配合 ， 数 据 源 往往 并 没有 意愿 主动 输出 高 质量 的 数 
据 。 特 别 是 利用 这 些 数据 生成 考核 KPI 的 场景 下 ， 数 据 源 甚至 有 可 能 故意 提供 虚假 数 
据 或 不 完整 数据 。 
所 以 在 项 目 规划 初期 ， 就 需要 考虑 后 期 运营 过 程 中 ， 如 何 对 数据 源 通过 技术 手 
段 进 行 数据 质量 评估 ， 并 对 数据 源 的 质量 辅 以 相应 的 考核 机 制 。 只 有 针对 数据 质量 
形成 闭环 反馈 ， 才 有 可 能 在 未 来 的 运营 过 程 中 逐步 提高 数据 质量 ;而 没有 数据 质量 
控制 的 大 数据 系统 ， 在 运营 过 程 中 很 可 能 会 逐渐 退化 ， 甚 至 最 终 失 败 。 


3.3 业务 特征 


任何 系统 都 是 为 特定 的 业务 而 生 的 ， 需 要 在 特定 的 资源 条 件 下 完成 业务 流程 。 
对 于 系统 设计 者 ， 需 要 了 解数 据 应 采用 何 种 处 理 方式 ， 明 确 系 统 对 内 部 与 外 部 环境 
的 要 求 ， 并 进一步 根据 这 些 要 求 选择 软 硬 件 基础 设施 。 所 以 ， 对 于 大 数据 项 目的 规 
划 来 说 ， 在 早期 就 清晰 地 识别 系统 业务 特性 显得 尤为 重要 。 

从 业务 处 理 实时 性 的 角度 来 划分 ， 系 统 可 以 分 成 实时 处 理 系 统 与 批 处 理 系统 。 
对 于 实时 处 理 系统 ， 该 业务 场景 下 系统 收 到 数据 或 消息 请 求 需要 即时 对 数据 消息 进 
行 实时 处 理 响应 ， 系 统 更 关心 响应 时 间 和 并 发 度 ; 对 于 批 处 理 系 统 ， 该 业务 场景 下 
数据 以 成 批 的 多 组 文件 方式 被 系统 处 理 ， 上 下 游 作 业 进 程 通过 调度 进程 进行 作业 工 
作 流 的 调度 处 理 ， 该 模式 下 系统 更 关心 处 理 能 力 ; 另外 ， 在 实际 生产 系统 中 ， 还 存 
在 对 实时 性 要 求 相对 较 低 的 准 实时 系统 ， 其 数据 采用 批量 的 形式 进入 系统 ， 系 统一 
旦 检测 到 数据 的 进入 即 开 始 进行 数据 处 理 ， 输 出 数据 结果 。 

从 系统 功能 角度 来 划分 ， 系 统 可 分 为 侧重 数据 保存 的 存储 型 系统 、 侧 重 数 据 分 
析 的 密集 计算 型 系统 以 及 需求 大 量 内 存 的 内 存 计算 系统 。 

无 论 是 从 业务 的 实时 性 来 看 ， 还 是 从 系统 功能 来 看 ， 不 同业 务 特征 的 系统 有 着 
各 自 的 特点 ， 设 计 者 需要 权衡 各 自 的 优点 与 缺点 ， 定 义 自身 系统 关键 的 性 能 指标 ， 
进行 合理 的 技术 选 型 。 例 如 ， 存 储 型 系统 需 考虑 在 磁盘 IO 读 写 方面 进行 优化 处 理 ， 
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数据 分 析 密 集 计 算 型 系统 需要 对 CPU 的 选 型 进行 重点 考虑 ， 内 存 计 算 型 系统 需要 考 
量 系统 内 存 消耗 等 。 

只 有 清晰 地 识别 系统 的 业务 特征 ， 才 能 选择 合理 的 技术 方案 ， 满 足 系统 的 设计 
目标 。 


3.4 经 济 可 行 性 


大 数据 之 所 以 能 提升 社会 生产 效益 ， 其 本 质 是 提升 人 类 生产 活动 的 准确 性 ， 减 
少 了 相关 的 浪费 。 鄂 维 南 院士 曾经 指出 :; “大 数据 本 身 并 不 能 带 来 直接 效益 ， 它 不 
能 吃 也 不 能 穿 ， 但 它 可 以 消除 浪费 。” 
任何 一 个 技术 要 获得 大 规模 社会 应 用 ， 产 生 社 会 效益 ， 有 两 个 前 提 ， 其 一 是 技 
术 可 行 性 ， 其 二 是 经 济 可 行 性 。 对 于 大 数据 技术 来 说 ， 也 不 例外 ， 需 要 在 满足 这 两 
个 可 行 性 的 前 提 下 获得 大 规模 社会 应 用 。 

2014 年 Gartner 发 布 的 HypeCycle 曲 线 中 ， 大 数据 技术 处 于 炒作 顶点 之 后 的 衰退 
期 。 从 HypeCycle 曲 线 来 看 ， 越 过 炒作 顶点 处 于 衰退 的 技术 ， 一 般 处 于 已 经 满足 技术 
可 行 性 ， 但 在 大 的 范围 内 ， 尚 未 满足 经 济 可 行 性 的 状态 。 所 以 ， 对 于 具体 的 大 数据 
建设 项 目 ， 技 术 可 行 性 很 可 能 可 以 满足 ， 其 不 是 考虑 的 关键 点 ， 而 需要 考虑 的 关键 
点 是 经 济 可 行 性 。 

大 数据 项 目的 建设 模式 是 ， 采 用 一 个 大 数据 平台 ， 然 后 在 平台 上 苔 加 多 个 应 
用 。 但 大 数据 平台 本 身 并 不 能 产生 经 济 效 益 ， 所 有 的 经 济 效 益 都 需要 靠 相 应 的 应 用 
与 经 营 来 体现 。 所 以 ， 在 项 目 规划 初期 ， 就 需要 重点 考虑 大 数据 平台 上 所 构建 的 业 
务 ， 并 考虑 相应 的 商务 模式 ， 以 最 终 实 现 建设 项 目的 经 济 可 行 性 。 

对 于 大 数据 项 目的 效益 点 (或 赢利 点 )， 如 图 3-1 所 示 ， 主 要 体现 在 三 个 方面 。 

效益 点 A 为 “系统 轻 载 ”， 对 于 需要 存储 大 量 历史 数据 的 企业 来 说 ， 在 生产 系统 
存储 历史 数据 ， 不 仅 会 代价 高 晶 ， 而 且 会 影响 生产 系统 的 稳定 性 。 所 以 效益 点 A 是 一 
种 “接近 于 本 能 的 刚 需 ”， 例 如 ， 银 行 /证 券 等 企业 仅仅 将 历史 交易 查询 系统 迁移 到 
大 数据 平台 中 ， 就 可 以 极 大 地 减轻 生产 系统 的 负载 ， 提 升 生产 系统 的 稳定 性 。 

效益 点 B 为 “闭环 应 用 ”， 大 数据 平台 通过 收集 生产 系统 产生 的 业务 过 程 数 据 ， 
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以 及 对 业务 数据 进行 建 模 ， 对 当前 生产 系统 提出 改进 建议 与 分 析 报 告 ， 去 除 或 改进 
现 有 系统 中 不 合理 的 环节 ， 提 高 系统 生产 效率 ， 降 低 成 本 。 例 如 ， 通 过 收集 无 线 网 
络 的 网 络 履 盖 相关 的 信息 ， 可 以 对 现 网 的 网 规 网 优 工作 进行 指导 ， 与 传统 依靠 路 测 
进行 网 规 网 优 的 模式 相 比 ， 无 论 是 资金 成 本 还 是 时 间 成 本 ， 都 将 急剧 降低 。 再 例 
如 ， 电 子 商 务 的 推荐 系统 ， 通 过 电子 商务 网 站 产生 的 数据 ， 分 析 用 户 的 属性 与 标签 ， 
形成 推荐 结果 后 反馈 给 电子 商务 网 站 ， 以 促进 更 多 的 电子 商务 销售 ， 形 成 闭环 反馈 。 

效益 点 C 为 “ 开 环 应 用 ”， 主 要 是 通过 第 三 方 实现 数据 变现 ， 例 如 ， 利 用 电信 运 
营 商 的 数据 进行 道路 规划 、 人 流量 密集 度 预测 ， 或 通过 数据 的 经 营 与 交换 产生 相应 
的 收益 。 由 于 开 环 应 用 较 难 形成 稳定 的 收入 ， 数 据 产生 的 最 终 价值 由 于 缺少 反馈 也 
较 难 衡量 ， 较 难 形成 相应 的 闭环 。 

在 项 目的 建设 初期 ， 效 益 点 A 与 效益 点 B 业 务 目 标 也 较 容 易 聚 焦 ， 较 容易 形成 经 
济 效益 ; 效益 点 C 虽 然 在 项 目 初期 较 难 形成 经 济 效益 ， 但 与 效益 点 A/B 相 比 ， 在 远 期 
将 能 够 带 来 更 多 的 收益 。 所 以 ， 在 大 数据 项 目的 建设 过 程 中 ， 在 哪个 阶段 建设 哪个 
类 别 的 业务 ， 建 设 顺 序 将 至 关 重 要 ， 甚 至 可 以 决定 整个 大 数据 建设 项 目的 成 败 。 

一 般 来 说 ， 项 目 建设 的 初期 ， 可 以 考虑 先 选择 较 易 产 生 经 济 效益 的 闭环 应 用 进 
行 建设 ， 使 项 目 形成 经 济 上 的 自我 造血 功能 ， 然 后 再 依托 所 积累 的 数据 ， 进 行 开 环 
应 用 的 拓展 。 这 样 的 建设 顺序 ， 将 有 助 于 提升 项 目 成 功 的 概率 。 


生产 系统 改进 
效益 点 B: 闭环 应 用 
本 Ce 
BE | 效益 点 A， 系 统 轻 才 are 
=> 


ie 非 结构 化 数据 


效益 点 C: 开 环 应 
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生产 数据 & 过 程 数据 


图 3-1 大 数据 效益 点 


3.5 和 运 维 管理 要 求 


大 数据 时 代 ， 企 业 IT 架构 的 不 断 扩展 ， 网 络 也 变 得 更 加 复杂 ， 服 务 器 、 存 储 设 
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备 的 数量 越 来 越 多 ， 从 而 给 运 维 工 作 带 来 了 巨大 的 挑战 ， 特 别 是 分 支 机 构 众 多 的 大 
型 企业 或 垂直 层级 较 多 的 政府 单位 ， 为 了 保障 良好 的 用 户 体验 和 数据 时 效 性 ， 运 维 
工作 显得 十 分 艰巨 。 

传统 IT 系统 维护 的 机 器 数目 相对 较 少 ， 运 维 管理 系统 主要 提供 监控 界面 、 告 警 
处 理 、 作 业 上 线 等 。 但 大 数据 集群 将 面 对 成 百 上 千 甚 至 上 万 台 规 模 的 集群 ， 并 且 多 
个 集群 可 同时 运行 ， 多 种 组 件 服务 相互 依赖 ， 将 让 系统 的 诊断 与 测试 变 得 非常 困难 。 
例如 ， 如 何 防 止 个 别 作业 异常 导致 整个 集群 不 可 用 ， 就 是 一 个 较为 困难 的 问题 。 

对 于 大 数据 运 维 管理 系统 来 说 ， 需 要 考虑 如 下 的 问题 或 因素 。 

其 一 ， 对 于 上 百 台 甚至 上 万 台 的 服务 器 、 网 络 设备 、 存 储 设备 等 ， 如 何 让 这 
些 设备 稳定 地 运行 在 生产 环境 中 ， 不 会 因为 硬件 损坏 、 系 统 升级 而 引发 业务 系统 故 
障 ? 一 旦 故障 发 生 ， 运 维 人 员 如 何 评估 故障 对 业务 的 影响 有 多 大 ?需要 多 少时 间 和 工 
作 量 恢复 ? 

其 二 ， 如 何 应 对 系统 规模 与 业务 规模 的 快速 膨胀 ? 如何 预 防 新 上 线 大 规模 作业 
对 集群 性 能 造成 冲击 ， 甚 至 让 整个 集群 失效 ? 

其 三 ， 不 同 应 用 、 甚 至 不 同 的 计算 框架 在 同一 集群 下 运行 ， 如 何 对 各 类 作业 、 
资源 、 数 据 进行 管理 ， 并 满足 安全 性 要 求 ? 

通过 上 述 所 需 考虑 的 问题 ， 不 难看 出 传统 的 IT 运 维 思路 和 运 维 方法 已 难以 满足 
大 数据 系统 海量 数据 存储 、 计 算 、 应 用 和 安全 、 部 署 等 多 种 需求 。 因 此 ， 梳 理 相关 
的 运 维 管理 要 求 是 系统 规划 阶段 的 重要 工作 。 


3.6 安全 性 要 求 


大 数据 蕴藏 的 价值 为 大 家 公认 ， 企 业 不 仅 要 学 习 如 何 挖掘 数据 价值 ， 抓 住 大 数 
据 带 来 的 机 遇 加 以 利用 ， 同 时 别 忘记 大 数据 作为 新 技术 也 会 引入 新 的 安全 威胁 ， 存 
在 于 大 数据 时 代 “ 潘 多 拉 魔 盒 ” 中 的 魔鬼 可 能 会 随时 出 现 ， 正 如 Gartner 所 说 : “大 
数据 安全 是 一 场 必要 的 斗争 。” 能 否 保护 自己 的 隐私 安全 、 信 息 安全 ， 成 为 了 企业 
部 署 大 数据 之 前 的 首 道 难 题 。 

首先 ， 网 络 化 使 大 数据 更 易 成 为 攻击 目标 ， 网 络 化 社会 为 大 数据 提供 了 一 个 开 
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放 的 环境 ， 分 布 在 不 同 地 区 的 资源 可 以 快速 整合 ， 实 现 数据 与 计算 资源 的 集中 存储 
与 共享 ， 然 而 大 数据 平台 的 暴露 使 得 蕴含 着 海量 数据 、 敏 感 数据 及 巨大 潜在 价值 的 
大 数据 集群 更 容易 吸引 更 多 潜在 的 攻击 者 。 黑 客 、 间 谍 的 犯罪 动机 也 比 以 往 任何 时 
候 都 来 得 强烈 。 他 们 的 组 织 性 、 专 业 性 更 强 ， 作 案 工 具 也 更 先进 ， 作 案 手 段 更 是 层 
出 不 穷 ， 而 且 一 旦 遭受 攻击 ， 失 窃 的 数据 量 也 是 巨大 的 ， 造 成 的 损失 也 是 惨重 的 。 
所 以 在 大 数据 时 代 ， 网 络 安全 防护 可 以 说 至 关 重 要 。 

其 次 ， 大 数据 时 代 的 数据 安全 比 传统 数据 安全 更 加 复杂 ， 企 业 部 署 大 数据 面临 
的 数据 安全 风险 体现 如 下 几 个 方面 : 

(1) 大 量 数据 的 集中 存储 增加 了 大 数据 泄露 风险 ， 大 数据 中 心 往往 存储 海量 的 客 
户 信息 、 客 户 的 隐私 和 行为 轨迹 ， 这 些 数据 的 集中 存储 增加 了 数据 泄露 风险 ; 

(2) 海量 数据 本 身 就 蕴藏 着 价值 ， 但 是 如 何 将 有 用 的 数据 与 没有 价值 的 数据 进行 
区 分 是 一 个 棘手 的 问题 ， 甚 至 引发 越 来 越 多 的 安全 问题 ; 

(3) 敏感 数据 的 所 有 权 和 使 用 权 并 没有 被 明确 界定 ， 敏 感 数 据 的 共享 与 隔离 存在 
风险 ， 很 多 基于 大 数据 的 分 析 都 未 考虑 到 其 中 涉及 的 个 体 隐私 问题 ， 未 考虑 敏感 数 
据 屏蔽 ; 

(4) 大 数据 对 数据 完整 性 、 可 用 性 和 秘密 性 带 来 挑战 ， 被 滥用 和 被 破坏 的 风险 
很 高 

(5) 海量 数据 的 集中 存储 涉及 如 何 防 止 数 据 丢 失 或 者 被 误 删 除 ， 同 时 数据 容 灾 、 
数据 的 备份 与 恢复 等 引入 了 新 的 技术 难题 ; 

(6) 随 着 大 数据 存储 规模 不 断 扩 大 ， 集 群 冷 热 数据 分 布 会 更 加 不 均匀 ， 如 何 管理 
数据 生命 周期 也 是 一 个 挑战 ; 

(7) 如 何 进行 大 数据 安全 访问 控制 、 安 全 审计 、 安 全 监控 也 是 一 个 难题 。 

最 后 ， 大 数据 时 代 的 应 用 安全 比 传统 IT 应 用 安全 问题 更 加 突出 ， 具 体 体现 在 如 
下 几 个 方面 : 

(1) 大 数据 集群 上 线 后 往往 运行 各 种 类 型 的 应 用 程序 (统称 作业 )， 同 时 这 些 作 业 
将 访问 集群 各 类 软 硬 件 资源 ， 如 CPU/ 硬 盘 / 网 络 /内 存 以 及 各 类 业务 数据 等 ， 在 同一 集 
群 下 数据 、 作 业 、 资 源 的 安全 访问 及 隔离 是 一 个 巨大 的 挑战 ; 

(2) 同一 个 集群 可 能 多 计算 框架 并 存 ， 保 证 不 同 应 用 、 相 同 /不 同 计算 框架 间 的 安 
全 更 加 困难 ; 

(3) 具体 到 作业 权限 管理 ， 即 如 何 实现 从 客户 端 接 入 、 作 业 提 交 、 作 业 执行 、 作 
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业 监 控 、 作 业 资 源 管理 等 端 到 端 全 流程 权限 控制 ; 

(4) 大 数据 服务 众多 ， 如 何 打通 各 个 组 件 间 的 权限 控制 ， 对 服务 进行 安全 管理 是 
必须 解决 的 问题 ; 

(5) 大 数据 业务 访问 控制 ， 如 数据 与 应 用 访问 控制 、 集 群 管理 访问 控制 、Web 访 
问 控制 ， 如 何 对 访问 审计 等 ; 

(6) 大 数据 用 户 的 认证 、 授 权 及 企业 已 有 权限 系统 与 大 数据 权限 控制 结合 也 是 个 
难题 ; 

(7) 数据 传递 安全 管理 ， 保 证 数据 传递 过 程 的 安全 性 。 

因此 ， 构 建 大 数据 体系 时 需要 根据 系统 的 特征 ， 统 筹 规划 安全 相关 的 部 署 ， 建 
立 大 数据 安全 体系 。 当 然 ， 我 们 也 需要 认识 到 ， 安 全 是 一 个 全 方位 的 系统 性 工作 ， 
对 安全 的 投入 可 以 说 是 没有 止境 的 ， 所 以 ， 也 需要 根据 项 目的 需求 ， 划 分 安全 工作 
的 边界 ， 在 安全 规划 与 资源 投入 方面 取得 合理 的 平衡 。 


3.7 ”部署 要 求 


大 数据 正在 从 专注 于 个 别 项 目 向 对 企业 战略 信息 架构 的 影响 上 转移 ， 对 数据 
量 、 种 类 、 速 度 和 复杂 性 的 处 理 正 迫 使 许多 传统 方法 发 生 改变 ， 带 来 前 所 未 有 的 
难题 ， 大 数据 项 目的 部 署 实施 及 上 线 安全 稳定 运行 是 一 个 复杂 的 过 程 ， 涉 及 内 容 众 
多 ， 在 建构 时 选 何 选 型 、 制 订 方案 、 实 施 落地 ， 是 决策 人 应 该 了 解 的 知识 。 

首先 ， 企 业内 部 需 明确 大 数据 的 发 展 战略 及 定位 问题 。 大 数据 平台 是 作为 企业 
内 部 的 业务 服务 平台 ， 还 是 对 外 提供 服务 ， 其 不 同 的 定位 将 面临 不 同 的 解决 方案 。 

其 次 ， 软 件 规划 考虑 上 线 的 业务 类 型 ， 并 以 此 为 依据 对 大 数据 组 件 进行 选择 ， 
如 功能 、 性 能 、 稳 定性 、 高 可 用 性 、 高 可 靠 性 、 高 扩展 性 、 安 全 性 等 ， 都 是 需要 考 
虑 的 因素 。 

再 次 ， 硬 件 规划 需要 结合 现状 及 资金 投入 计划 进行 规划 。 一 般 来 说 ， 硬 件 配置 
越 高 ， 其 性 能 越 好 ， 但 效 费 比 未 必 经 济 。 因 此 部 署 时 也 需要 寻找 一 个 经 济 上 的 均衡 
点 ， 让 硬件 能 最 大 效率 地 发 挥 出 功能 和 性 能 。 例 如 ， 部 署 环 境 选 择 是 采用 物理 机 部 
署 ， 还 是 虚拟 化 方式 部 署 ? 是 按 业 务 场景 进行 多 集群 部 署 模式 ， 还 是 单一 大 集群 部 
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署 模式 ? 这 些 都 是 需要 考虑 的 问题 。 

最 后 ， 容 灾 问 题 是 容易 忽略 的 关键 问题 。 关 键 业 务 是 否 支 持 容 灾 ? 是 采用 同 
城 容 灾 ， 还 是 异地 容 灾 模式 ? 容 灾 恢 复 时 间 等 指标 是 多 少 ? 这 些 问 题 都 需要 系统 考 
虑 ， 并 且 会 直接 影响 全 系统 的 建设 成 本 。 

可 以 看 出 ， 大 数据 部 署 非 常 复杂 ， 不 仅 要 综合 各 种 因素 进行 权衡 分 析 ， 而 且 需 
要 逐步 细 化 落地 。 


3.8 ”系统 边界 


系统 边界 定义 的 问题 ， 是 经 常 容易 被 忽略 的 问题 。 所 谓 系 统 边界 ， 也 就 是 将 这 
个 系统 看 成 一 个 黑 盒子 ， 它 如 何 与 外 界 进 行 交 互 。 举 个 简单 的 例子 ， 某 公司 要 上 线 
的 A 系 统 需要 跟 已 存在 的 B 系 统 进行 对 接 ，A 系 统 负责 人 认为 对 接 接口 需要 B 系 统 进行 
开发 ， 而 B 系 统 的 负责 人 则 认为 对 接 接 口 是 A 系 统 的 责任 。 双 方 团队 就 对 接口 责任 问 
题 争论 不 休 ， 导 致 A 系 统 的 上 线 工 作 迟 迟 无 法 推进 ， 项 目 经 理 也 无 可 奈何 。 因 此 无 论 
在 系统 分 析 阶 段 还 是 在 系统 的 开发 阶段 亦 或 是 在 系统 的 上 线 阶 段 ， 只 有 明确 了 系统 
边界 ， 才 能 有 条 不 率 地 继续 接 下 来 的 工作 。 

新 上 线 一 个 大 数据 系统 ， 系 统 往往 都 不 是 独立 存在 的 ， 一 般 需要 与 外 围 其 他 已 
存在 的 数据 处 理 系 统 进行 交互 ， 而 且 需 要 集成 交互 的 内 容 可 能 会 很 多 ， 比 如 源 数据 
获取 、 系 统 对 接 、 数 据 上 报 等 。 

系统 边界 定义 不 清 将 导致 需求 不 断 更 改 ， 既 增加 了 重新 开发 的 工作 量 成 本 ， 也 
会 带 来 跟 其 他 外 围 系统 的 供应 商 进行 协调 的 沟通 成 本 ， 造 成 项 目 延 期 、 预 算 超 支 等 
和 危害。 作为 大 数据 系统 的 架构 工程 师 ， 正 确 地 界定 大 数据 系统 边界 是 必 不 可 少 的 。 
大 数据 系统 的 系统 边界 主要 从 系统 交互 界面 与 系统 交割 界面 两 方面 进行 考虑 。 

关于 考虑 系统 交互 边界 。 大 数据 系统 作为 数据 的 接收 、 处 理 和 呈现 系统 ， 跟 外 
围 数据 系统 的 数据 交互 不 可 避免 。 对 于 交互 界面 的 确定 ， 需 考虑 到 以 下 几 个 方面 的 
问题 。 

(1) 系统 的 数据 安全 。 数 据 安全 主要 是 指数 据 的 接收 方 对 数据 是 否 有 访问 权限 
是 需要 读 写 权限 ， 还 是 需要 只 读 权限 ， 在 不 影响 业务 的 情况 下 只 有 严格 控制 权限 才 
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能 保证 数据 的 安全 性 。 

(2) 系统 交互 的 流量 。 系 统 交 互 的 流量 主要 是 指 双方 的 数据 交互 是 实时 性 的 数据 
交互 还 是 非 实时 性 的 交互 ， 明 确 系统 交互 的 流量 有 助 于 设计 和 测试 系统 的 处 理 压力 
的 能 力 ， 防 止 系统 上 线 时 在 流量 高 峰 期 出 现 超出 系统 负荷 的 情况 。 

(3) 系统 交互 的 接口 。 系 统 交互 接口 主要 是 指明 确 对 接 的 双方 系统 的 对 接 方 式 、 
对 接 协 议 以 及 对 接 的 网 络 情况 。 

(4) 系统 交互 的 周期 性 。 交 互 周期 性 主要 是 指 交互 的 数据 是 周期 性 地 发 送 ， 还 是 
只 要 系统 产生 数据 就 会 随机 地 发 送 数据 。 

(5) 项 目 执 行 边界 的 界定 。 对 于 系统 边界 处 的 工作 需要 明确 定义 与 约定 。 例 如 
大 数据 平台 与 各 个 数据 源 之 间 的 对 接 与 调试 ， 往 往 开发 难度 不 大 ， 但 调试 工作 量 
大 ， 周 期 长 。 数 据 源 对 接 调 试 是 否 包 括 在 项 目 范畴 内 ， 将 极 大 地 影响 项 目的 成 本 与 
预算 。 

关于 系统 交割 界面 。 新 上 线 大 数据 系统 与 其 他 系统 进行 对 接 与 交割 时 ， 需 考虑 
如 下 几 方 面 的 问题 。 

(1) 数据 备份 。 对 要 蔡 换 的 系统 进行 数据 备份 ， 需 要 备份 的 东西 包括 数据 、 元 数 
据 以 及 配置 等 ， 对 交割 过 程 做 好 失败 预案 ， 若 交割 失败 ， 能 快速 恢复 系统 和 业务 。 

(2) 业务 容忍 中 断 时 长 和 切换 时 间 。 明 确 交 割 过 程 中 业务 容忍 中 断 时 长 和 切换 时 
间 ， 规 划 好 系统 交割 的 方案 。 

(3) 迁移 效率 。 系 统 交割 前 需要 充分 测试 交割 过 程 中 的 数据 迁移 效率 以 计算 数据 
迁移 的 周期 ， 从 而 把 控 整 个 交割 所 需 的 时 间 。 

(4) 系统 兼容 性 。 由 于 大 数据 组 件 的 开源 特性 ， 不 同系 统 使 用 的 组 件 版 本 不 尽 相 
同 ， 不 同 的 版 本 由 于 协议 或 者 架构 的 不 同 导致 不 同 版 本 间 数 据 传输 方法 会 不 一 样 ， 
所 以 系统 交割 的 过 程 要 充分 考虑 系统 版 本 兼容 性 。 

(5) 数据 安全 性 。 系 统 交 割 的 过 程 中 要 保证 数据 的 完整 性 和 安全 性 ， 保 证 交割 过 
程 中 数据 不 丢失 。 

(6) 系统 稳定 性 。 由 旧 的 系统 切换 到 新 的 大 数据 系统 后 要 测试 和 保障 系统 切换 后 
可 以 稳定 运行 。 

(7) 数据 正确 性 。 系 统 交 割 完成 后 要 验证 数据 迁移 的 正确 性 ， 尤 其 是 业务 不 停机 
情况 下 的 数据 迁移 ， 需 要 保证 迁移 过 程 中 产生 的 新 的 业务 数据 能 够 同步 迁移 到 新 的 
系统 中 。 
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3.9 约束 条 件 


任何 项 目的 运作 都 会 受到 外 在 因素 的 制约 ， 大 数据 项 目 也 不 例外 。 如 果 不 能 有 
效 地 考虑 外 在 约束 的 影响 ， 可 能 会 给 项 目 带 来 严重 危害 ， 甚 至 是 致命 危害 。 作 为 大 
数据 架构 工程 师 ， 需 要 在 系统 规划 、 开 发 、 上 线 乃 至 后 期 维护 过 程 中 充分 考虑 项 目 
约束 ， 并 提前 预案 ， 才 能 从 容 应 对 。 

大 数据 项 目 在 运作 过 程 中 可 能 会 遇 到 的 外 力 约束 ， 可 以 从 以 下 几 个 方面 考虑 。 

首先 ， 需 考虑 团队 规模 与 技能 的 约束 。 团 队 的 人 员 规 模 以 及 人 员 技 能 将 制约 项 
目 所 能 选择 的 技术 路 线 。 大 数据 架构 工程 师 需要 对 项 目 团队 的 技能 有 清晰 的 认识 ， 
并 结合 团队 的 大 小 和 能 力 对 项 目 发 展 方向 做 权衡 。 

其 次 ， 需 考虑 可 利用 资源 的 约束 。 例 如 ， 项 目的 投资 规模 会 制约 建设 规模 ， 可 
投入 的 研发 费用 制约 是 否 有 足够 的 硬件 资源 进行 大 规模 性 能 压力 测试 。 

再 次 ， 组 织 保障 的 约束 。 项 目 运作 需要 与 内 外 部 多 部 门 进行 合作 ， 需 要 有 一 定 
的 组 织 保障 ， 才 能 打破 跨 项 目 跨 部 门 的 “部 门 墙 ”。 

最 后 ， 需 考虑 标准 与 规范 的 约束 。 银 行 、 电 信和 以 及 政府 机 构 都 需 遵循 相应 的 国 
家 规范 或 行业 规范 ， 甚 至 部 分 行业 对 外 购 的 第 三 方 软 硬 件 都 有 硬性 规定 。 如 果 到 了 
项 目 后 期 才 考虑 这 些 约束 条 件 ， 将 会 导致 灾难 性 的 后 果 。 


3.10 要 点 回顾 


为 方便 团队 成 员 做 大 数据 项 目 规划 与 评审 ， 小 明 将 大 数据 方案 的 关键 因素 整理 


了 一 份 较为 通用 的 问题 检查 单 ， 以 方便 团队 成 员 使 用 。 
问题 


数据 存储 规模 多 大 ? 
1-2: 有 哪些 数据 类 型 ? 不 同类 型 的 数据 ， 需 要 何 种 技术 进行 处 理 ? 
: 数据 源 是 否 可 获得 ? 
对 获取 困难 的 数据 源 ， 需 要 何 种 政策 支持 才能 获得 ? 
2-3: 采用 何 种 技术 与 手段 评估 数据 源 的 质量 ? 

: 如 何 形成 反馈 ， 使 数据 质量 逐渐 提高 ? 需要 何 种 政策 支持 ? 
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(8) 
编号 | ”类 别 问题 
| 个 全 ”|31， 友 统 是 以 实时 处 理 为 主 ， 还 是 以 拉 处 理 为 主 ? 
3-2， 系统 是 存储 密集 型 ， 还 是 计算 密集 型 ? 
1， 系统 建设 的 初期 ， 需 要 构建 哪些 上 层 业 务 ? 
4 | 经 济 可 行 性 ”|4.2， 所 构建 的 业务 ， 是 否 满足 闭环 反馈 的 特点 ? 
4.3: 有 没有 明确 的 指标 衡量 业务 的 经 济 可 行 性 或 效益 ? 
Sl; 如何 对 海量 设备 进行 安装 、 管 理 与 维护 ? 
5 “| 运 维 管理 要 求 |5-2: 如 何 快 速 扩容 ? 
|5 3， 不 同 作业 之 间 是 否 有 资源 隔离 等 要 求 ? 
6G-1， 安 全 性 工作 的 边界 在 何 处 ?是 全 部 的 安全 性 在 该 大 数据 项 目 中 
6 | 安全 性 要 求 考虑 ， 还 是 安全 性 是 一 个 独立 的 项 目 ? 
6-2: 具体 到 该 大 数据 项 目 ， 最 主要 的 安全 性 要 求 是 什么 ? 
Th 当前 项 目 是 需要 构建 在 已 有 的 硬件 环境 中 ， 还 是 可 以 新 建 而 件 
环境 ? 
7-2: 是 采用 单 集群 部 署 ， 还 是 多 集群 部 署 ? 
7-3: 对 软件 模块 如 何 选择 ? 例如 ， 对 于 实时 业务 ， 是 倾向 于 采用 
storm， 还 是 倾向 于 采用 spark streaming? 
7-4: 对 容 灾 有 何 有 求 ， 有 多 少 预算 ? 
. 8-1， 系 统 交互 界面 如 何 定义 ? 
8 | 系统 边界 。 |s2， 系统 交割 界面 如 何 定义 ? 
9-1: 项 目 团队 的 规模 多 大 ?团队 的 技能 处 于 何 种 水 平 ? 
0-2: 项 目 投资 规模 是 多 大 ? 可 以 使 用 的 资源 有 何 限制 ? 


9-3: 组 织 上 的 保障 与 支持 力度 有 多 大 ? 
9-4: 需要 满足 哪些 强制 标准 与 规范 ? 


7 “| 部 署 要 求 


9 “| 约束 条 件 


— 
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小 明 完 成 第 三 个 咨询 项 目 后 ， 陷 入 深 深 的 烦恼 之 中 。 他 感觉 自己 团队 成 员 中 
的 大 多 数 骨 干 处 于 “人 台 上 一 条 龙 ， 台 下 一 条 贝 ” 的 状态 。 也 就 是 说 ， 对 于 大 的 项 目 
策略 ， 大 家 都 可 以 侃侃 而 谈 如 沐 春 风 ， 但 一 旦 具体 到 技术 细节 ， 往 往 就 显 出 内 力 不 
足 、 手 足 无 措 。 

虽说 在 一 个 大 型 项 目的 初期 未 必需 要 考虑 技术 细节 ， 但 往往 又 会 有 部 分 技术 细 
节 决 定 整个 大 方案 的 可 行 性 。 在 项 目 早期 识别 出 这 些 影响 方案 可 行 性 的 技术 细节 ， 
往往 可 以 体现 一 个 架构 师 的 技术 能 力 与 水 准 。 所 以 ， 对 于 一 个 架构 师 来 说 ， 掌 握 相 
关 领 域 的 知识 是 必需 的 ， 否 则 ， 就 难以 成 为 一 个 真正 合格 的 架构 师 。 

基于 这 样 的 现状 ， 小 明 深 切 地 体会 到 ， 必 须要 对 团队 进行 大 数据 基础 技术 的 培 
训 ， 才 能 让 整个 团队 的 工作 更 上 一 层 楼 。 

小 明说 干 就 干 ， 很 快 为 团队 准备 了 一 份 技术 教材 “大 数据 架构 师 基 础 ”。 
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4.1 Hadoop 简 介 


Apache Hadoop 是 Apache 软 件 基 金 会 的 顶级 开源 项 目 ， 是 由 Doug Cutting 根 据 
Google 发 布 的 学 术 论文 而 创建 的 开源 项 目 。Doug Cutting 被 称 为 Hadoop 之 父 ， 他 打造 
了 目前 在 大 数据 领域 如 日 中 天 的 Hadoop。 

Apache Hadoop 的 官方 定义 是 ，Apache™ Hadoop” 是 一 套 可 靠 的 、 可 扩展 的 、 支 
持 分 布 式 计算 的 开源 软件 。 

Hadoop 的 发 音 是 “[hadu:p]”，Hadoop 这 个 名 字 不 是 一 个 缩写 ， 而 是 一 个 虚构 
的 名 字 。Doug Cutting 这 样 解释 Hadoop 的 得 名 : “这 个 名 字 是 我 孩子 给 一 个 棕 黄 色 的 
大 象 玩具 命名 的 。 我 的 命名 标准 就 是 简短 、 容 易 发 音 和 拼写 ， 没 有 太 多 的 意义 ， 并 
且 不 会 被 用 于 别处 ， 小 孩子 恰恰 是 这 方面 的 高 手 。” 

Hadoop 的 特点 

> Hadoop 是 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 开源 软件 框架 ， 以 一 种 可 

靠 、 高 效 、 可 伸缩 的 方式 进行 数据 处 理 。 
> Hadoop 是 可 靠 的 ， 它 维护 多 个 数据 副本 ， 确 保 能 够 针对 失败 的 节点 重新 分 布 
处 理 。 

> Hadoop 是 高 效 的 ， 它 以 并 行 的 方式 工作 ， 通 过 并 行 处 理 加 快 处 理 速度 。 

> Hadoop 是 可 伸缩 的 ， 能 够 处 理 PB 级 数据 。 

> Hadoop 是 一 个 能 够 让 用 户 轻 松 构建 和 使 用 的 分 布 式 计算 平台 。 用 户 可 以 轻松 

地 在 Hadoop 上 开发 和 运行 处 理 海量 数据 的 应 用 程序 。 

> Hadoop 带 有 用 Java 语 言 编写 的 框架 ， 基 于 Hadoop 的 应 用 程序 也 可 以 使 用 其 他 

语言 编写 。 

高 可 靠 、 高 扩展 、 高 效 、 高 容错 、 低 成 本 等 特性 让 Hadoop 成 为 目前 最 流行 的 大 
数据 分 析 系统 。 
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4.2 Hadoop 版 本 演进 


当前 Hadoop 有 两 大 版 本 : Hadoop 1.0 和 Hadoop 2.0， 如 图 4-1 所 示 。 


HADOOP 1.0 HADOOP 2.0 


图 4-1 Hadoop 版 本 演进 图 

Hadoop1.0 被 称 为 第 一 代 Hadoop， 由 分 布 式 文件 系统 HDFS 和 分 布 式 计算 框架 
MapReduce 组 成 ， 其 中 ，HDFS 由 一 个 NameNode 和 多 个 DataNode 组 成 ，MapReduce 
由 一 个 JobTracker 和 多 个 TaskTracker 组 成 ， 对 应 Hadoop 版 本 为 0.20.x、0.21.x，0.22.x 和 
1.x。 其 中 0.20x 是 比较 稳定 的 版 本 ， 最 后 演化 为 1x， 变 成 稳定 版 本 。0.21.x 和 0.22.x 则 
增加 了 NameNode HA 等 新 特性 。 

第 二 代 Hadoop 被 称 为 Hadoop2.0， 是 为 克服 Hadoop 1.0 中 HDFS 和 MapReduce 存 在 
的 各 种 问题 而 提出 的 ， 对 应 Hadoop 版 本 为 Hadoop 0.23.x 和 2.x。 

针对 Hadoop1.0 中 NameNode HA 不 支持 自动 切换 且 切 换 时 间 过 长 的 风险 ， 
Hadoop2.0 提 出 了 基于 共享 存储 的 HA 模式 ， 支 持 失败 自动 切换 及 切 回 。 

针对 Hadoop1.0 中 的 单 NameNode 制 约 HDFS 的 扩展 性 问题 ，Hadoop2.0 提 出 了 
HDFS Federation( 联 邦 ) 机 制 ， 它 多 许多 个 NameNode 各 自分 管 不 同 的 命名 空间 ， 进 而 
实现 数据 访问 隔离 和 集群 横向 扩展 。 

针对 Hadoop1.0 中 的 MapReduce 在 扩展 性 和 多 框架 支持 方面 的 不 足 ， 提 出 了 全 新 
的 资源 管理 框架 YARN， 将 JobTracker 中 的 资源 管理 和 作业 控制 功能 分 开 ， 分 别 由 组 
件 ResourceManager 和 ApplicationMaster 实 现 。 其 中 ，ResourceManager 负 责 所 有 应 用 
程序 的 资源 分 配 ， 而 ApplicationMaster 仅 负责 管理 一 个 应 用 程序 。 

相 比 于 Hadoop1.0，Hadoop 2.0 框 架 具 有 更 好 的 扩展 性 、 可 用 性 、 可 靠 性 、 向 后 
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兼容 性 和 更 高 的 资源 利用 率 以 及 能 支持 除了 MapReduce 计 算 框架 外 的 更 多 的 计算 杠 


架 ， 


Hadoop 2.0 目 前 是 业界 主流 使 用 的 Hadoop 版 本 。 
Hadoop 版 本 演进 可 以 参考 : http://Hadoop.apache.org/releases.html。 


4.3 Hadoop2.0 生 态 系 统 简介 


Apache Hadoop2.0 生 态 系 统 如 图 4-2 所 示 。 


集群 安装 、 部 署 、 配 置 、 管 理工 具 | 
Ambari 


> 
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图 4-2 ”Hadoop2.0 生 态 系统 图 

Hadoop 核 心 项 目 包 括 以 下 内 容 。 

> HDFS: 全 称 为 Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System)， 提 供 
了 高 吞吐 量 的 访问 应 用 程序 数据 。 

Hadoop YARN: Hadoop 集 群 资源 管理 框架 (Yet Another Resource Negotiator), 
用 于 作业 调度 和 集群 资源 管理 。 

> Hadoop MapReduce: 基于 YARN 的 大 数据 集 的 并 行 处 理 系统 。 

> Hadoop Common: 支持 其 他 Hadoop 模 块 的 通用 功能 ， 包 括 序列 化 、Java RPC 
和 持久 化 数据 结构 等 。 

Hadoop 其 他 子 项 目 包 括 以 下 内 容 。 

> Ambari: 是 一 个 部 署 、 管 理 和 监视 Apache Hadoop 集 群 的 开源 框架 ， 它 提供 
一 个 直观 的 操作 工具 和 一 个 健壮 的 Hadoop API， 可 以 隐藏 复杂 的 Hadoop 操 
作 ， 使 集群 操作 大 大 简化 。 

> HBase: 可 扩展 的 分 布 式 列 式 数据 库 ， 支 持 大 表 的 结构 化 存储 。 

> Hive: 分 布 式 数据 仓库 系统 ， 提 供 基于 类 SQL 的 查询 语言 。 
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Mahout: 机 器 学 习 和 数据 挖 握 领 域 经 典 算法 的 实现 。 
Pig: 一 个 高 级 数据 流 语言 和 执行 环境 ， 用 来 检索 海量 数据 集 。 
Spark: 一 个 快速 和 通用 的 计算 引擎 。Spark 提 供 了 一 个 简单 而 富有 表现 力 的 
编程 模型 ， 支 持 多 种 应 用 ， 包 括 ETL、 机 器 学 习 、 数 据 流 处 理 和 图 形 计算 。 
> Sqoop: 在 关系 型 数据 库 与 Hadoop 系 统 之 间 进 行 数据 传输 的 工具 。 
> Tez: 是 从 MapReduce 计 算 框 架 演化 而 来 的 通用 DAG 计 算 框架 ， 可 作为 
MapReduceR/Pig/Hive 等 系统 的 底层 数据 处 理 引擎 ， 它 天 生 融 入 Hadoop 2.0 中 
的 资源 管理 平台 YARN。 
> ZooKeeper: 提供 Hadoop 集 群 高 性 能 的 分 布 式 的 协调 服务 。 


YY Vv 


v 


4.4 Hadoop 分 布 式 文件 系统 HDFS 


4.4.1 HDFS 简 介 


Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System， 简 称 HDFS) 被 设计 
成 适合 运行 在 通用 硬件 上 高 度 容错 性 的 分 布 式 文件 系统 ， 能 提供 高 吞吐 量 的 数据 访 
问 ， 适 合 大 规模 数据 集 上 的 应 用 。HDFS 放 宽 了 一 部 分 POSIX 约 束 ， 来 实现 流 式 读 取 
文件 系统 数据 。 

HDFS 前 提 和 设计 目标 概括 为 以 下 几 点 。 

硬件 错误 : 硬件 错误 是 常态 而 不 是 异常 。HDEFS 可 能 由 成 百 上 千 的 服务 器 构成 ， 
每 个 服务 器 上 存储 着 文件 系统 的 部 分 数据 。 我 们 面 对 的 现实 是 构成 系统 的 组 件数 目 
是 巨大 的 ， 而 且 任 一 组 件 都 有 可 能 失效 ， 这 意味 着 总 是 有 一 部 分 HDFS 的 组 件 是 不 工 
作 的 。 因 此 错误 检测 和 人 快速、 自动 地 恢复 是 HDFS 最 核心 的 架构 目标 。 

流 式 的 访问 数据 : HDFS 建 立 在 这 样 一 个 思想 上 ， 即 一 次 写 入 、 多 次 读 取 模 式 是 
最 高 效 的 。 这 意味 着 一 个 数据 集 一 旦 由 数据 源 生 成 ， 就 会 被 复制 分 发 到 不 同 的 存储 
节点 中 ， 然 后 响应 各 种 各 样 的 数据 分 析 任务 请 求 。 在 多 数 情况 下 ， 分 析 任务 都 会 涉 
及 数据 集中 的 大 部 分 数据 ， 也 就 是 说 ， 对 HDFS 来 说 ， 请 求 读 取 整 个 数据 集 要 比 读 取 
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一 条 记录 更 加 高 效 。 

处 理 超 大 文件 : 这 里 的 超大 文件 通常 是 指 百 MB、 数 百 TB 大 小 的 文件 。 目 前 在 
实际 应 用 中 ，HDFS 已 经 能 用 来 存储 管理 PB 级 的 数据 了 。 所 以 ，HDFS 被 调整 成 支持 
大 文件 。 它 应 该 提供 很 高 的 聚合 数据 带宽 ， 在 一 个 集群 中 支持 成 百 上 千 个 节点 ， 支 
持 上 亿 级 别 的 文件 。 

简单 一 致 性 模型 : 大 部 分 的 HDFS 程 序 对 文件 操作 需要 的 是 一 次 写 入 多 次 读 取 的 
操作 模式 。 一 个 文件 一 旦 创建 、 写 入 、 关 闭 ， 就 不 需要 修改 了 。 这 个 假定 简单 化 了 
数据 一 致 性 的 问题 并 使 高 吞吐 量 的 数据 访问 变 得 可 能 。 

移动 计算 比 移动 数据 更 经 济 : 在 靠近 计算 数据 所 存储 的 位 置 来 进行 计算 是 最 理 
想 的 状态 ， 尤 其 是 在 数据 集 特别 巨大 的 时 候 。 这 样 消除 了 网 络 的 拥堵 ， 提 高 了 系统 
的 整体 吞吐 量 。 一 个 假定 就 是 迁移 计算 到 离 数 据 更 近 的 位 置 比 将 数据 移动 到 程序 运 
行 更 近 的 位 置 要 更 好 。HDFS 提 供 了 接口 ， 来 让 程序 自己 移动 到 离 数 据 存储 更 近 的 
位 置 。 

异 构 软 硬 件 平台 间 的 可 移植 性 : HDFS 被 设计 成 可 以 简便 地 实现 平台 间 的 迁移 ， 
这 将 推动 需要 大 数据 集 的 应 用 更 广泛 地 采用 HDFS 作 为 平台 。 


44.2 ”HDFS 体 系 架构 


如 图 4-3 所 示 ，HDFS 是 一 个 主 / 从 (Mater/Slave) 体 系 结构 ， 一 个 HDFS 集 群 是 由 
一 个 NameNode 和 一 定数 目的 DataNode 组 成 。NameNode 管 理 文件 系统 的 元 数据 ， 
Datanode 存 储 实际 的 数据 。 从 内 部 看 ， 一 个 文件 其 实 被 分 成 一 个 或 多 个 数据 块 ， 这 
些 块 存储 在 一 组 DataNode 上 。 客 户 端 通过 同 NameNode 和 DataNode 的 交互 访问 文件 
系统 ， 客 户 端 联系 NameNode 以 获取 文件 的 元 数据 ， 而 真正 的 文件 IO 操作 是 直接 和 
DataNode 进 行 交互 的 。HDFS 暴 露 了 文件 系统 的 名 字 空 间 ， 用 户 能 够 以 文件 的 形式 在 
上 面 存 储 数据 。 
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HDFS Architecture 


Metadata ops [ NameNode }—> Metadata (Name, replicas, ...): 


/home/foo/data, 3, ... 
Block ops 
DataNodes DataNodes 
1 
Replication G 
Blocks 


Rack 1 Write Rack 2 
Client 


图 4-3 ”HDFS 架 构图 

NameNode 执 行文 件 系 统 的 名 字 空 间 操作 ， 比 如 打开 、 关 闭 、 重 命名 文件 或 目 
录 。 它 也 负责 确定 数据 块 到 具体 DataNode 节 点 的 映射 。DataNode 负 责 处 理 文件 系统 
客户 端的 读 写 请 求 。 在 NameNode 的 统一 调度 下 进行 数据 块 的 创建 、 删 除 和 复制 。 

NameNode 又 叫 “ 元 数据 节点 ”，DataNode 又 叫 “ 数 据 节 点 ”。 这 两 类 节点 分 别 
承担 Master 和 Slave 具 体 任务 的 执行 节点 。 

NameNode 可 以 看 作 是 分 布 式 文件 系统 中 的 管理 者 ， 负 责 管理 文件 系统 的 命名 空 
间 (NameSpace) 以 及 客户 端 对 文件 的 访问 。NameNode 将 所 有 的 文件 和 文件 夹 的 元 数 
据 保 存在 一 个 文件 系统 树 中 。 这 些 信 息 也 会 在 硬盘 上 保存 成 以 下 文件 : 命名 空间 镜 
像 (image) 及 操作 日 志 (editlog)， 其 还 保存 了 一 个 文件 包括 哪些 数据 块 ， 分 布 在 哪些 数 
据 节 点 上 。 然 而 这 些 信息 并 不 存储 在 硬盘 上 ， 而 是 在 启动 的 时 候 由 数据 节点 上 报到 
NameNode。 集 群 中 单一 NameNode 的 结构 大 大 简化 了 系统 的 架构 。NameNode 是 所 有 
HDFS 元 数据 的 仲裁 者 和 管理 者 ， 这 样 ， 用 户 数据 永远 不 会 流 过 NameNode。 

DataNode 是 文件 系统 中 真正 存储 数据 的 地 方 ，DataNode 负 责 处 理 文件 系统 客户 
端的 读 写 请 求 。 在 NameNode 的 统一 调度 下 进行 数据 块 的 创建 、 删 除 和 复制 。 客 户 
端 可 以 向 数据 节点 请 求 写 入 或 者 读 取 数 据 块 。DataNode 周 期 性 地 向 NameNode 节 点 
汇报 其 存储 的 数据 块 信息 。DataNode 是 文件 存储 的 基本 单元 ， 它 将 Block 存 储 在 本 地 
文件 系统 中 ， 保 存 了 Block 的 元 数据 ， 同 时 周期 性 地 将 所 有 存在 的 Block 信 息 发 送 给 
NameNode. 

Client 是 HDFS 文 件 系统 的 客户 端 。 

应 用 程序 通过 该 模块 与 NameNode、DataNode 交 互 ， 进 行 实际 的 文件 读 写 。 


Read 
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443 ”HDFS 数 据 复制 


HDFS 可 靠 地 在 集群 中 大 量 机 器 之 间 存 储 大 量 的 文件 ， 它 以 块 序列 的 形式 存储 文 
件 。 文 件 中 除了 最 后 一 个 块 ， 其 他 块 都 有 相同 的 大 小 。 默 认 128M 一 个 数据 块 ， 如 果 
一 个 文件 小 于 一 个 数据 块 的 大 小 ， 并 不 占用 整个 数据 块 存储 空间 。 为 了 容错 ， 文 件 
的 所 有 数据 块 都 会 有 副本 ， 每 个 文件 的 数据 块 大 小 和 副本 系数 都 是 可 配置 的 。 应 用 
程序 可 以 指定 某 个 文件 的 副本 数目 ， 副 本 系数 可 以 在 文件 创建 的 时 候 指定 ， 后 续 
也 可 以 调整 。HDFS 中 的 文件 是 一 次 写 的 ， 并 且 任 何 时 候 都 只 有 一 个 写 操作 。 

NameNode 负 责 处 理 所 有 的 块 复制 相关 的 决策 。 它 周期 性 地 接受 集群 中 数据 节点 
的 心跳 和 块 报告 。 接 收 到 心跳 信号 意味 着 该 DataNode 节 点 工作 正常 。 块 状态 报告 包 
含 了 一 个 该 DataNode 上 所 有 数据 块 的 列表 。 

HDFS 数 据 块 复制 机 制 如 图 4-4 所 示 。 

数据 块 复制 
NameNode (Filename, numReplicas, block-ids, ...) 


/users/sameerp/data/part-0, 1:2, {1,3}, ... 
/users/sameerp/data/part-1, r:3, {2,4,5}, ... 


DataNodes 


1 2 i @ 27] [5 


3 4 
3 4 5 


图 4-4 HDFS 数 据 块 复制 图 


副本 位 置 : 块 副本 存放 位 置 的 选择 是 HDFS 可 靠 性 和 性 能 的 关键 。HDFS 采 用 一 
种 称 为 机 架 感知 (rack-aware) 的 策略 来 改进 数据 的 可 靠 性 、 可 用 性 和 网 络 带宽 的 利 
用 率 。 

HDFS 运 行 在 跨越 大 量 机 架 的 集群 之 上 。 两 个 不 同 机 架 上 的 节点 是 通过 交换 机 
实现 通信 的 ， 在 大 多 数 情况 下 ， 相 同 机 架 上 机 器 间 的 网 络 带 宽 优 于 在 不 同 机 架 上 的 
机 器 。 

通过 一 个 机 架 感知 的 过 程 ，NameNode 可 以 确定 每 个 DataNode 所 属 的 机 架 id。 在 
开始 的 时 候 ， 每 一 个 DataNode 自 检 它 所 属 的 机 架 id， 然 后 在 向 NameNode 注 册 的 时 
候 告 知 它 的 机 架 id。 一 个 简单 但 不 是 最 优 的 方式 就 是 将 副本 放置 在 不 同 的 机 架 上 ， 
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这 就 防止 了 机 架 故 障 时 数据 的 丢失 ， 并 且 在 读数 据 的 时 候 可 以 充分 利用 不 同 机 架 
的 带宽 。 这 个 方式 均匀 地 将 复制 分 散在 集群 中 ， 这 就 简单 地 实现 了 组 建 故 障 时 的 
负载 均衡 。 然 而 这 种 方式 增加 了 写 的 成 本 ， 因 为 写 的 时 候 需 要 跨越 多 个 机 架 传输 文 
件 块 。 

默认 的 HDFS Block 放 置 策略 在 最 小 化 写 开 销 和 最 大 化 数据 可 靠 性 、 可 用 性 以 及 
总 体 读 取 带宽 之 间 进 行 了 一 些 折 中 。 一 般 情况 下 复制 因子 为 3，HDFS 的 副本 放置 策 
略 是 将 第 一 个 副本 放 在 本 地 节点 ， 将 第 二 个 副本 放 到 本 地 机 架 上 的 另外 一 个 节点 ， 
而 将 第 三 个 副本 放 到 不 同 机 架 上 的 节点 。 这 种 方式 减少 了 机 架 间 的 写 流 量 ， 从 而 提 
高 了 写 的 性 能 。 机 架 故 障 的 几率 远 小 于 节点 故障 。 这 种 方式 并 不 影响 数据 可 靠 性 和 
可 用 性 的 限制 ， 并 且 它 确实 减少 了 读 操 作 的 网 络 聚 合 带 宽 ， 因 为 文件 块 仅 存在 两 个 
不 同 的 机 架 ， 而 不 是 三 个 。 在 这 种 策略 下 ， 副 本 并 不 是 均匀 分 布 在 不 同 的 机 架 上 。 
1/3 的 副本 在 一 个 节点 上 ，2/3 的 副本 在 一 个 机 架 上 ， 其 他 副本 均匀 分 布 在 剩 下 的 机 架 
中 ， 这 一 策略 在 不 损害 数据 可 靠 性 和 读 取 性 能 的 情况 下 改进 了 写 的 性 能 。 

副本 选择 : 为 了 降低 整体 的 带宽 消耗 和 读 取 延 时 ，HDFS 会 尽量 让 读 取 程序 读 取 
离 它 最 近 的 副本 。 假 如 在 读 节点 的 同一 个 机 架 上 就 有 这 个 副本 ， 就 直接 读 这 个 ， 如 
果 HDFS 集 群 跨越 多 个 数据 中 心 ， 那 么 客户 端 将 首先 读本 地 数据 中 心 的 副本 。 


444 ”本 节 技 术 要 点 回顾 


HDFS 是 Hadoop 分 布 式 文件 系统 ，HDFS 有 如 下 技术 特点 和 应 用 场景 : 
> 适合 处 理 超大 文件 ， 数 量 级 达到 GB 级 、TB 级 甚至 PB 级 ; 

> 支持 集群 规模 的 动态 扩展 ; 

> 适用 于 流 式 数 据 读 写 的 场景 ， 即 “一 次 写 入 ， 多 次 读 取 ”; 

> 具有 高 容错 性 ， 数 据 块 可 以 保存 多 个 副本 ， 实 现 负 载 均衡 ; 

> 对 硬件 要 求 低 ， 能 够 运行 在 廉价 的 商用 机 器 集群 上 。 

HDFS 不 适合 应 用 于 如 下 场景 : 

> 不 适合 需要 高 效 存 储 大 量 小 文件 的 场景 ; 

> 不 适合 低 延 迟 的 数据 访问 场景 ; 

> 不 适合 多 用 户 同时 写 入 和 任意 修改 文件 的 场景 。 


= 
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4.5 ”Hadoop 统 一 资源 管理 框架 YARN 


YARN(Yet Another Resource Negotiator) 是 一 个 通用 的 资源 管理 平台 ， 可 为 各 类 计 
算 框架 提供 资源 的 管理 和 调度 。 

YARN 可 以 将 多 种 计算 框架 (如 离线 处 理 MapReduce、 在 线 处 理 的 Storm、 内 存 计 
算 框架 Spark 等 ) 部 署 到 一 个 公共 集群 中 ， 共 享 集群 的 资源 ， 并 提供 如 下 功能 。 

(1) 资源 的 统一 管理 和 调度 : 集群 中 所 有 节点 的 资源 (内 存 、CPU、 磁 盘 、 
网 络 等 ) 抽 象 为 Container。 在 资源 进行 运算 任务 时 ， 计 算 框架 需要 向 YARN 申 请 
Container，YARN 按 照 策略 对 资源 进行 调度 ， 进 行 Container 的 分 配 。 

(2) 资源 隔离 : YARN 使 用 了 轻 量 级 资源 隔离 机 制 Cgroup 进 行 资源 隔离 ， 以 避免 
相互 干扰 ， 一 旦 Container 使 用 的 资源 量 超过 事先 定义 的 上 限 值 ， 就 将 其 杀 死 。 

YARN 可 以 被 看 作 是 一 个 云 操作 系统 ， 由 一 个 ResourceManager 和 多 个 
NodeManager 组 成 ， 它 负责 管理 所 有 NodeManger 上 多 维度 资源 ， 并 以 Container( 启 动 
一 个 Container 相 当 于 启动 一 个 进程 ) 方 式 分 配给 应 用 程序 启动 ApplicationMaster( 相 当 于 
主 进程 中 运行 逻辑 ) 或 运行 ApplicationMaster 切 分 的 各 Task( 相 当 于 子 进程 中 运行 逻辑 )。 


4.5.1 YARN 体 系 架构 


YARN 是 Master/Slave 结 构 ， 主 要 由 ResourceManager、NodeManager、 
ApplicationMaster 和 Container 等 几 个 组 件 构成 。YARN 架 构 如 图 4-5 所 示 。 
> ResourceManager(RM): 负责 对 各 NM 上 的 资源 进行 统一 管理 和 调度 。 给 AM 
分 配 空闲 的 Container 并 监控 其 运行 状态 。 对 AM 申请 的 资源 请 求 分 配 相 应 的 
空闲 Container。 其 主要 由 两 个 组 件 构成 : 调度 器 和 应 用 程序 管理 器 。 
国 调度 器 (Scheduler): 调度 器 根据 容量 、 队 列 等 限制 条 件 ， 将 系统 中 的 资源 
分 配给 各 个 正在 运行 的 应 用 程序 。 调 度 器 仅 根据 各 个 应 用 程序 的 资源 需 
求 进行 资源 分 配 ， 而 资源 分 配 单位 是 Container， 从 而 限定 每 个 任务 使 用 的 
资源 量 。 
转 应 用 程序 管理 器 (Applications Manager): 应 用 程序 管理 器 负责 管理 整个 
系统 中 所 有 的 应 用 程序 ， 包 括 应 用 程序 提交 ， 与 调度 器 协商 资源 以 启动 
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AM， 监 控 AM 运 行 状态 并 在 失败 时 重新 启动 等 。 
> NodeManager(NM): NM 是 每 个 节点 上 的 资源 和 任务 管理 器 。 它 会 定时 地 向 
RM 汇报 本 节点 上 的 资源 使 用 情况 和 各 个 Container 的 运行 状态 ; 同时 会 接收 
并 处 理 来 自 AM 的 Container 启动 /停止 等 请 求 。 
> ApplicationMaster(AM): 用 户 提交 的 应 用 程序 均 包 含 一 个 AM， 负 责 应 用 的 监 
控 ， 跟 踪 应 用 执行 状态 ， 重 启 失败 任务 等 。 
> Container: Container 封 装 了 某 个 节点 上 的 多 维度 资源 ， 如 内 存 、CPU、 磁 
盘 、 网 络 等 ， 是 YARN 对 资源 的 抽象 。 当 AM 向 RM 申请 资源 时 ，RM 为 AM 返 
回 的 资源 便 是 用 Container 表示 的 。YARN 会 为 每 个 任务 分 配 一 个 Container 且 
该 任务 只 能 使 用 该 Container 中 描述 的 资源 。 


~ {Container | 


Container 


Task Status 一 一 > Manager 


Job Submission ----- > sami a 
Node Status ee 
Resource Request 一 -一 一 一 > 


图 4-5 ” YARN 架构 图 


45.2 ” ”YARN 应 用 工作 流程 


如 图 4-6 所 示 ， 用 户 向 YARN 中 提交 一 个 应 用 程序 后 ，YARN 将 分 两 个 阶段 运行 
应 用 程序 : 


= 
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> 启动 AM， 如 图 4.6 中 的 步骤 1~3; 
> 由 AM 创建 应 用 程序 ， 申 请 资源 并 监控 其 整个 运行 过 程 ， 直 到 运行 完成 ， 如 
图 4.6 中 的 步骤 4~7。 
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图 4-6 ” YARN 应 用 工作 流程 图 


YARN 的 工作 流程 具体 如 下 : 

(1) 用 户 向 YARN 提 交 应 用 程序 ， 其 中 包括 AM 程序 、 启 动 AM 的 命令 、 用 户 程 
序 等 ; 

(2) RM 为 该 应 用 程序 分 配 第 一 个 Container， 并 与 对 应 的 NM 通信 ， 要 求 它 在 这 个 
Container 中 启动 AM; 

(3) AM 首 先 向 RM 注册 ， 这 样 用 户 可 以 直接 通过 RM 查看 应 用 程序 的 运行 状态 ， 
然后 它 将 为 各 个 任务 申请 资源 ， 并 监控 它 的 运行 状态 ， 直 到 运行 结束 (重复 图 4.6 中 
的 步骤 4 一 7); 

(4) AM 采用 轮 询 的 方式 通过 RPC 协 议 向 RM 申请 和 领取 资源 ; 

(5) 一 旦 AM 申请 到 资源 后 ， 便 与 对 应 的 NM 通信 ， 要 求 它 启动 任务 ; 

(6) NM 为 任务 设置 好 运行 环境 (包括 环境 变量 、JAR 包 、 二 进 制程 序 等 ) 后 ， 将 任 
务 启动 命令 写 到 一 个 脚本 中 ， 并 通过 运行 该 脚本 启动 任务 ; 

(7) 各 个 任务 通过 某 个 RPC 协 议 向 AM 汇 报 自己 的 状态 和 进度 ， 以 让 AM 随 时 掌握 
各 个 任务 的 运行 状态 ， 从 而 可 以 在 任务 失败 时 重新 启动 任务 ; 

(8) 应 用 程序 运行 完成 后 ，AM 向 RM 注销 并 关闭 自己 。 
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4.5.3 YARN 资 源 调 度 模 型 


YARN 提 供 了 一 个 资源 管理 平台 能 够 将 集群 中 的 资源 统一 进行 管理 。 所 有 节点 上 
的 多 维度 资源 都 会 根据 申请 抽象 为 一 个 个 Container。 
YARN 采 用 了 双 层 资源 调度 模型 : 
> RM 中 的 资源 调度 器 将 资源 分 配给 各 个 AM: 资源 分 配 过 程 是 异步 的 。 资 源 调 
度 器 将 资源 分 配给 一 个 应 用 程序 后 ， 不 会 立刻 push 给 对 应 的 AM， 而 是 暂时 
放 到 一 个 缓冲 区 中 ， 等 待 AM 通过 周期 性 的 心跳 主动 来 取 ; 
> AM 领取 到 资源 后 再 进一步 分 配给 它 内 部 的 各 个 任务 : 不 属于 YARN 平 台 的 范 
%, WAP ATER, 
YARN 目 前 采用 的 资源 分 配 算法 有 三 种 。 
(1) 先 来 先 调度 FIFO: 先 按 照 优先 级 高 低调 度 ， 如 优先 级 相同 则 按照 提交 时 间 先 
后 顺序 调度 ， 如 提交 时 间 相同 则 按照 队列 名 或 Application ID 比较 顺序 调度 。 
(2) 公平 调度 FAIR: 该 算法 的 思想 是 尽 可 能 地 公平 调度 ， 即 已 分 配 资源 量 少 的 优 
先 级 高 。 
(3) 主 资源 公平 调度 DRF: 该 算法 扩展 了 最 大 最 小 公平 算法 ， 使 之 能 够 支持 多 维 
资源 ， 算 法 是 配置 资源 百分比 小 的 优先 级 高 。 


4.5.4 ”本 节 技 术 要 点 回顾 


YARN 是 一 个 可 为 各 类 计算 框架 提供 资源 管理 和 调度 的 通用 的 资源 管理 平台 。 
YARN 有 如 下 的 优点 和 使 用 场景 : 

> YARN 使 用 了 轻 量 级 资源 隔离 机 制 Cgroups 进 行 资源 隔离 以 避免 资源 之 间 相 互 
干扰 ， 实 现 对 CPU 和 内 存 两 种 资源 的 隔离 。 

> YARN 上 可 以 运行 各 种 应 用 类 型 的 计算 框架 ， 包 括 离线 计算 MapReduce、 
DAG 计 算 框架 Tez、 基 于 内 存 的 计算 框架 SPARK、 实 时 计算 框架 Storm 等 。 

> 支持 先进 先 出 FIFO、 公 平 调度 FAIR 、 主 资源 公平 调度 DRF 等 分 配 算法 。 

> 支持 多 租户 资源 调度 ， 包 括 支持 资源 按 比例 分 配 、 支 持 层级 队列 划分 和 支持 
资源 抢占 。 
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4.6 Hadoop 分 布 式 计算 框架 MapReduce 


MapReduce 致 力 于 解决 大 规模 数据 处 理 的 问题 ， 利 用 局 部 性 原理 将 整个 问题 分 
而 治之 。MapReduce 在 处 理 之 前 ， 将 数据 集 分 布 至 各 个 节点 。 处 理 时 ， 每 个 节点 就 近 
读 取 本 地 存储 的 数据 处 理 (Map)， 将 处 理 后 的 数据 进行 合并 (Combine)、 排 序 (Shuffle 
and Sorb 后 再 分 发 (至 Reduce 节 点 )， 避 免 了 大 量 数据 的 传输 ， 提 高 了 处 理 效率 。 配 合 
数据 复制 (Replication) 策 略 ， 集 群 可 以 具有 良好 的 容错 性 ， 一 部 分 节点 的 宕 机 对 集群 
的 正常 工作 不 会 造成 影响 。 
MapReduce 作 为 一 个 分 布 式 计算 框架 ， 主 要 由 三 部 分 组 成 。 
(1) 编程 模型 : 为 用 户 提供 了 非常 易 用 的 编程 接口 ， 用 户 只 需要 考虑 如 何 使 用 
MapReduce 模 型 描述 问题 ， 实 现 几 个 简单 的 hook 函 数 即 可 实现 一 个 分 布 式 程序 。 
(2) 数据 处 理 引 擎 : 由 MapTask 和 ReduceTask 组 成 ， 分 别 负责 Map 阶 段 逻辑 和 
Reduce 阶 段 逻辑 的 处 理 。 
(3) 运行 时 环境 : 用 以 执行 MapReduce 程 序 ， 并 行程 序 执行 的 诸多 细节 ， 如 分 
发 、 合 并 、 同 步 、 监 测 等 功能 均 交 由 执行 框架 负责 ， 用 户 无 须 关 心 这 些 细节 。 
MapReduce 的 优点 有 以 下 几 点 。 
> 易于 编程 : 将 所 有 并 行程 序 均 需 要 关注 的 设计 细节 抽象 成 公共 模块 并 交 由 系 
统 实现 ,而 用 户 只 需 专 注 于 自己 应 用 程序 的 逻辑 实现 ， 这 样 简化 了 分 布 式 程 
序 设计 且 提高 了 开发 效率 。 
> 良好 的 扩展 性 : 通过 添加 机 器 以 达到 线性 扩展 集群 能 力 的 目的 。 
> 高 容错 性 : 在 分 布 式 环境 下 ， 随 着 集群 规模 的 增加 ， 集 群 中 的 故障 率 (这 里 的 
“故障 ”包括 磁盘 损坏 、 机 器 宕 机 、 节 点 间 通 信 失 败 等 硬件 故障 和 坏 数据 或 
者 用 户 程 序 bug 产 生 的 软件 故障 ) 会 显著 增加 ， 进 而 导致 任务 失败 和 数据 丢失 
的 可 能 性 增加 。Hadoop 通 过 计算 迁移 或 者 数据 迁移 等 策略 提高 集群 的 可 用 性 
与 容错 性 。 
其 缺点 有 以 下 几 点 。 
> CHR: 不 适应 实时 应 用 的 需求 。 
> 对 随机 访问 的 处 理 能 力 不 足 : 其 是 一 种 线性 的 编程 模型 ， 适 用 于 顺序 处 理 
数据 。 
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4.6.1 MapReduce 可 编程 组 件 


MapReduce 提 供 了 5 个 可 编程 组 件 ， 如 图 4-7 所 示 ， 实 际 上 可 编程 组 件 全 部 属于 
调 接口 。 当 用 户 按照 约定 实现 这 几 个 接口 后 ，MapReduce 运 行 时 环境 会 自动 调用 以 实 
现 用 户 定制 的 效果 。 


El 


区 LVH] 


在 Reduce 任 务 开始 前 ， 
Mapper 任 务必 须 
全 部 结束 
splitl | split2 [split3 [split4] _--- part-00000 | part-00000 | part-000N 
file directory 
block1 block2 blockN 


图 4-7 MapReduce 可 编程 组 件 

(1) InputFormat: 主要 用 于 描述 输入 数据 的 格式 ， 其 按照 某 个 策略 将 输入 数据 切 
分 成 若干 个 split， 并 为 Mapper 提 供 输入 数据 ， 将 split 解 析 成 一 个 个 key/value 对 。 

(2) Mapper: 对 split 传 入 的 keyl/value1 对 进行 处 理 ， 产 生 新 的 键 值 key2/value2 
对 ， 即 Map: (kl, vl) 一 k2，v2) 。 

(3) Partitioner: 作用 是 对 Mapper 产 生 的 中 间 结 果 进 行 分 区 ， 以 便 将 key 有 耦合 关 
系 的 数据 交 给 同一 个 Reducer 处 理 ， 它 直接 影响 Reduce 阶 段 的 负载 均衡 。 

(4) Reducer: 以 Map 的 输出 作为 输入 ， 对 其 进行 排序 和 分 组 ， 再 进行 处 理 产 生 新 
的 数据 集 ， 即 Reducer: (k2, list(v2)) 一 (k3，v3)。 

(5) OutputFormat: 主要 用 于 描述 输出 数据 的 格式 ， 它 能 够 将 用 户 提供 的 key/ 
value 对 写 入 特定 格式 的 文件 中 。 
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编程 流程 的 运行 流程 如 下 : 
(1) 作业 提交 后 ，InputFormat 按 照 策略 将 输入 数据 切 分 成 若干 个 Split; 
(2) 各 Map 任 务 节点 上 根据 分 配 的 Split 元 信息 获取 相应 数据 ， 并 将 其 迭代 解析 成 
一 个 个 keyl/valuel 对 ; 
(3) 迭代 的 keyl/value1 对 由 Mapper 处 理 为 新 的 key2/value2 对 ; 
(4) 新 的 key2/value2 对 先进 行 排序 ， 然 后 由 Partitioner 将 有 耦合 关系 的 数据 分 到 同 
一 个 Reducer 上 进行 处 理 ， 中 间 数 据 存 入 本 地 磁盘 ; 
(5) 各 Reduce 任 务 节点 根据 已 有 的 Map 节 点 远程 获取 数据 (只 获取 属于 该 Reduce 的 
数据 ， 该 过 程 称 为 Shuffle); 
(6) 对 数据 进行 排序 ， 并 进行 分 组 (将 相同 key 的 数据 分 为 一 组 ); 
(7) 迭代 key/value 对 ， 并 由 Reducer 合 并 处 理 为 新 的 key3/value3 对 ; 
(8) 新 的 key3/value3 对 由 OutputFormat 保 存 到 输出 文件 中 。 


4.6.2 ”MapReduce 数 据 处 理 引擎 


在 MapReduce 计 算 框架 中 ， 一 个 Job 被 划分 成 Map 和 Reduce 两 个 计算 阶段 ， 它 们 
分 别 由 多 个 Map Task 和 Reduce Task 组 成 。 这 两 种 服务 构成 了 MapReduce 数 据 处 理 引 
擎 ， 如 图 4-8 所 示 。 

Map Task 的 整体 计算 流程 共 分 为 5 个 阶段 。 

(1) Read 阶 段 : MapTask 通 过 用 户 编写 的 RecordReader， 从 输入 InputSplit 中 解析 
出 一 个 个 key/value。 

(2) Map 阶 段 : 将 解析 出 的 key/value 交 给 用 户 编写 的 Map 函 数 处 理 ， 并 产生 一 系 
列 新 的 key/value。 

(3) Collect 阶 段 :Map 函数 生成 的 key/value 通 过 调用 Partitioner 进 行 分 片 ， 并 写 入 
一 个 环形 内 存 缓冲 区 中 。 

(4) Sp 记 阶段 : 即 “ 溢 写 ”， 当 环形 缓冲 区 满 后 ，MapReduce 会 将 数据 写 到 本 地 
磁盘 上 ， 生 成 一 个 临时 文件 。 

(5) Combine 阶 段 : 所 有 数据 处 理 完成 后 ，Map Task 对 所 有 临时 文件 进行 一 次 合 
并 ， 以 确保 最 终 只 会 生成 一 个 数据 文件 。 
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copy “Sort” Reduce 
phase phase phase 
artiti 
map task ort and reduce task 
merge 
1 
partitions y 
数据 的 混和 


Other maps 
图 4-8 ”MapReduce 处 理 流程 图 


Reduce Task 的 整体 计算 流程 共 分 为 5 个 阶段 。 

(1) Shuffle 阶 段 : Reduce Task 从 各 个 Map Task 上 远程 拷贝 一 片 数据 ， 并 针对 某 一 
片 数据 ， 如 其 大 小 超过 一 定 阔 值 则 写 到 磁盘 上 ， 否 则 直接 放 到 内 存 中 。 

(2) Merge 阶 段 : 在 远程 拷贝 数据 的 同时 ，Reduce Task 启 动 了 3 个 后 台 线程 对 内 存 
和 磁盘 上 的 文件 进行 合并 ， 以 防止 内 存 使 用 过 多 或 磁盘 上 文件 过 多 。 

(3) Sort 阶 段 : 采用 了 基于 排序 的 策略 将 key 相 同 的 数据 聚 在 一 起 ， 由 于 各 个 Map 
Task 已 经 实现 对 自己 的 处 理 结果 进行 了 局 部 排序 ， 因 此 Reduce Task 只 需 对 所 有 数据 
进行 一 次 归并 排序 即 可 。 

(4) Reduce 阶 段 : 将 每 组 数据 依次 交 给 用 户 编写 的 reduce 函 数 处 理 。 

(5) Write 阶段 : reduce 函 数 将 计算 结果 写 到 HDFS 上 。 


4.6.3 MapReduce 版 本 对 比 


MapReduce 主要 分 为 MRv1 和 MRv2 两 个 大 版 本 。 
新 旧 MR 的 对 比如 表 4-1 所 示 。 
表 4-1 MRV1 与 MRV2 对 比 表 
MRvI MRv2 


编程 模型 | 新 旧 API 新 旧 API 
数据 处 理 引擎 Map Task / Reduce Task Map Task / Reduce Task( 重 构 优化 ) 
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( 续 表 ) 
MRv2 
YARN( 由 ResourceManager 和 
由 (一 个 )JobTracker 和 (若干 )TaskTracker | NodeManager 构成 ) 和 MRAppMaster 
构成 : JobTracker 负 责 资源 管理 和 所 有 | 构成 ，YARN 提 供 一 个 资源 管理 和 
作业 的 控制 ， 而 TaskTracker 负 责 接 收 来 | 调度 的 平台 ， 而 MRAppMaster 作 为 
自 JobTracker 的 命令 并 执行 它 运行 在 YARN 资 源 管 理 平 台 上 的 一 
个 应 用 ， 仅 负责 一 个 作业 的 管理 


运行 时 环境 


简 言 之 ，MRvl 仅 是 一 个 独立 的 离线 计算 框架 ， 而 MRv2 则 是 运行 于 YARN 之 上 的 
MapReduce 应 用 ， 每 个 作业 都 有 一 个 应 用 ApplicationMaster。MRv2 解 决 了 MRv1 的 扩 
展 性 差 、 可 靠 性 差 、 资 源 利 用 率 低 等 问题 ， 同 时 兼容 MRv1 的 API。 


4.6.4 ”本 节 技 术 要 点 回顾 


MapReduce 是 一 个 分 布 式 并 行 编程 模型 ， 它 将 计算 任务 分 布 在 成 百 上 千 个 节点 
组 成 的 集群 进行 并 行 计 算 ， 并 返回 计算 结果 。 
MapReduce 计 算 模型 有 如 下 优点 和 使 用 场景 : 
具有 高 度 可 扩展 性 ， 可 动态 增加 /削减 计算 节点 ; 
具有 高 容错 能 力 ， 支 持 任务 自动 迁移 、 重 试 和 预测 执行 ， 不 受 节点 故障 影响 ; 
能 实现 灵活 的 资源 分 配 和 调度 ， 达 到 资源 利用 的 最 大 化 ; 
可 部 署 在 几 千 台 机 器 的 超大 规模 集群 上 ， 使 MapReduce 可 以 处 理 具 有 超大 规 
模 数 据 的 业务 场景 ; 
> MapReduce 模 型 使 用 方便 ， 易 于 编程 ， 简 化 了 分 布 式 程序 设计 ， 提 高 了 开发 
效率 且 支持 多 开发 语言 。 
在 下 面 几 种 应 用 场景 中 不 适合 使 用 MapReduce 计 算 模型 : 
> MapReduce 计 算 的 时 延 较 高 ， 对 实时 性 要 求 比较 高 的 应 用 场景 不 适合 使 用 
MapReduce; 
> MapReduce 适 合 顺序 批量 处 理 数据 ， 处 理 随 机 访问 的 能 力 不 足 ， 因 此 需要 处 
理 随机 数据 的 场景 不 适合 使 用 MapReduce。 
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4.7 Hadoop 分 布 式 集群 管理 系统 ZooKeeper 


ZooKeeper 是 一 个 针对 大 型 分 布 式 系统 的 可 靠 协调 系统 。ZooKeeper 是 分 布 式 系 
统 中 的 一 个 重要 组 件 ， 它 能 为 HDFS、HBase、MapReduce、YARN、Hive 等 组 件 提供 
重要 的 功能 支撑 。 在 分 布 式 应 用 中 ， 通 常 需要 ZooKeeper 来 提供 可 靠 的 、 可 扩展 的 、 
分 布 式 的 、 可 配置 的 协调 机 制 来 统一 各 系统 的 状态 。 


4.7.1 ZooKeeper 体 系 架构 


ZooKeeper 的 体系 架构 如 图 4-9 所 示 。 


ZooKeeper Service 
Leader 


Server Server Server Server Server 


TS LL 


Client Client Client | | Client Client Client Client Client 
图 4-9 ”ZooKeeper 架 构图 

客户 端 可 以 连接 到 每 个 Server， 每 个 Server 的 数据 完全 相同 ， 每 个 Follower 都 和 

Leader 有 连接 ， 接 受 Leader 的 数据 更 新 操作 ，Server 记 录 事 务 日 志和 快照 到 持久 存 

fii; 过 半数 Server 可 用 ， 整 体 服务 就 可 用 。Leader 只 有 一 个 ， 宕 机 后 会 重新 选 出 一 个 


Leader。 


4.7.2 ZooKeeper 基 本 特性 


(1) 强 一 致 性 :Client 不 论 连接 到 哪个 Server， 展 示 给 它 的 都 是 同一 个 视图 ， 这 是 
ZooKeeper 最 重要 的 功能 。 

(2) 可 靠 性 : 具有 简单 、 健 壮 、 良 好 的 性 能 ， 如 果 消 息 Message 被 一 台 服 务 器 接 
受 ， 那 么 它 将 被 所 有 的 服务 器 接受 。 

(3) 实时 性 : ZooKeeper 保 证 客户 端 在 一 个 时 间 间 隔 范围 内 获得 服务 器 的 更 新 信 


= 有 
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息 ， 或 者 服务 器 失效 的 信息 。 考 虑 到 网 络 延 时 等 原因 ， 在 需要 最 新 数据 时 ， 应 该 在 
读数 据 之 前 调用 sync 实 现 。 

(4) 等 待 无 关 (Wait-Free): 慢 的 或 者 失效 的 Client 不 得 干预 快速 的 Client 的 请 求 ， 
使 得 每 个 Client 都 能 有 效 地 等 待 。 

(5) RPE: 更 新 只 能 成 功 或 者 失败 ， 没 有 中 间 状 态 。 

(6) 顺序 性 : 包括 全 局 有 序 和 偏 序 两 种 。 


4.7.3 ”ZooKeeper 数 据 模型 


ZooKeeper 的 数据 模型 基于 树 型 结构 的 命名 空间 ， 与 文件 系统 类 似 ， 如 图 4-10 
所 示 。 


/NameService 
/Serverl 
/Serverl 
/Configuration 
/GroupMembers 
/Menber1 
/Menber2 
/Apps 
/Apps1 
/Apps2 
/Apps3 
/SubApp1 
/SubApp2 
图 4-10 ”ZooKeeper 的 数据 模型 图 
该 数据 模型 具有 如 下 几 个 特点 。 


> 该 数据 模型 是 分 布 式 的 ， 数 据 节点 被 称 为 znode， 客 户 端 可 以 连接 到 每 个 
Server， 每 个 Server 的 数据 完全 相同 。 

> znode 可 以 是 临时 节点 也 可 以 是 持久 性 的 。 对 应 临时 节点 ， 一 旦 创建 znode 的 
客户 端 与 服务 器 失去 联系 ， 这 个 znode 也 将 自动 删除 ，ZooKeeper 的 客户 端 
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和 服务 器 通信 采用 长 连接 方式 ， 每 个 客户 端 和 服务 器 通过 心跳 来 保持 连接 ， 

这 个 连接 状态 称 为 session， 如 果 znode 是 临时 节点 ， 这 个 session 失 效 ，znode 

也 就 删除 了 。 

> znode 可 以 被 监控 ， 包 括 这 个 目录 节点 中 存储 的 数据 的 修改 ， 子 节点 目录 的 

变化 等 ， 一 旦 变化 可 以 通知 设置 监控 的 客户 端 ， 这 个 是 ZooKeeper 的 核心 特 

性 。ZooKeeper 的 很 多 功能 都 是 基于 这 个 特性 实现 的 ， 通 过 这 个 特性 可 以 实 
现 的 功能 包括 配置 的 集中 管理 、 集 群 管理 、 分 布 式 锁 等 。 


4.74 ”ZooKeeper 在 Hadoop 中 的 应 用 举例 


ZooKeeper 在 YARN 的 应 用 如 图 4-11 所 示 。 


ZooKeeper 
/rmstore 
--ZKRMStateRoot 
----RMAppRoot 
--ZKRMStateRoot 
----RMDTSecretManagerRoot 
-----RMDTMasterKevsRoot 
ZKRMStateStoer ZKRMStateStoer 
Active RM Standby RM 
Se >=” 
NM NM NM 


图 4-11 ZooKeeper 在 YARN 中 的 应 用 示意 图 

RM 的 作业 信息 存储 ZooKeeper 的 /rmstore 下 ，Active RM 向 这 个 目录 写 App 信 
息 。RM 启 动 的 时 候 会 通过 向 ZK 的 /rmstore 目 录 下 写 一 个 Lock 文 件 ， 写 成 功 则 成 为 
Active， 否 则 为 Standby，Standby RM 会 一 直 监 控 Lock 文 件 是 否 存 在 ， 如 果 不 存在 则 
会 试图 去 创建 ， 即 争取 成 为 Active RM。 

当 Active RM 挂 掉 ， 另 外 一 个 Standby RM 成 功 转换 为 Active RM 后 ， 会 从 /rmstore 
读 取 相应 的 作业 信息 ， 重 新 构建 作业 的 内 存 信息 。 然 后 其 会 启动 内 部 服务 ， 开 始 接 
收 NM 的 心跳 ， 构 建 集群 资源 信息 ， 并 接收 客户 端 提交 作业 的 请 求 等 。 
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475 本 节 技 术 要 点 回顾 


ZooKeeper 是 一 个 针对 大 型 分 布 式 系统 的 可 靠 协 调 系统 。 在 大 数据 系统 中 ， 
ZooKeeper 为 HDFS、HBase、MapReduce、YARN、Hive 等 组 件 的 功能 提供 了 重要 的 
功能 支撑 ， 包 括 HDFS HA 的 自动 Failover、HBase 的 Master 选 举 、 各 组 件 的 集群 管理 
等 功能 。ZooKeeper 主 要 有 如 下 常见 应 用 场景 : 

> 为 分 布 式 应 用 系统 提供 统一 的 配置 管理 信息 ; 

> 为 分 布 式 应 用 系统 提供 统一 的 命名 服务 ; 

> 提供 基于 简单 原 语 的 分 布 式 同步 操作 ; 

> 集群 管理 。 


第 二 部 分 
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5.1 Hadoop 数 据 仓库 工 具 Hive 


Hive 是 Apache Hadoop 的 正式 子 项 目 ， 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数据 
库 表 ， 并 提供 简单 的 SQL 查询 功能 ， 可 以 将 SQL 语句 转换 为 MapReduce 任 务 进行 运 
行 。 其 优点 是 学 习 成 本 低 ， 可 以 通过 类 SQL 语句 快速 实现 简单 的 MapReduce 统 计 ， 不 
必 开 发 专门 的 MapReduce 应 用 ， 十 分 适合 数据 仓库 的 统计 分 析 。 

Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 。 它 提供 了 一 系列 的 工具 ， 可 以 用 
来 进行 数据 提取 转化 加 载 (ETL)， 这 是 一 种 可 以 在 Hadoop 中 对 大 规模 数据 进行 存储 、 
查询 和 分 析 的 机 制 。Hive 定 义 了 简单 的 类 SQL 查询 语言 ， 称 为 HQL， 它 允许 熟悉 SQL 
的 用 户 方便 地 查询 数据 。 同 时 ， 这 个 语言 也 允许 熟悉 MapReduce 的 开发 者 定制 自 定义 
的 Mapper 和 Reducer， 以 便 处 理 内 建 Mapper/Reducer 无 法 完成 的 复杂 分 析 工 作 。 它 具 
备 如 下 几 个 基本 特性 。 

(1) 查询 语言 : 由 于 SQL 被 广泛 地 应 用 在 数据 仓库 中 ， 因 此 ， 专 门 针对 Hive 的 特 
性 设计 了 类 SQL 的 查询 语言 HQL。 熟 悉 SQL 开 发 的 开发 者 可 以 很 方便 地 使 用 Hive 进 行 
开发 。 

(2) 数据 存储 位 置 : Hive 是 建立 在 Hadoop 之 上 的 ， 所 有 Hive 的 数据 都 是 存储 在 
HDFS 中 的 。 

(3) 数据 格式 : Hive 中 没有 定义 专门 的 数据 格式 ， 数 据 格式 可 以 由 用 户 指定 ， 
用 户 定义 数据 格式 需要 指定 三 个 属性 : 列 分 隔 符 、 行 分 隔 符 以 及 读 取 文 件数 据 的 方 
法 。 由 于 在 加 载 数据 的 过 程 中 ， 不 需要 从 用 户 数据 格式 到 Hive 定 义 的 数据 格式 的 转 
换 ， 因 此 ，Hive 在 加 载 的 过 程 中 不 会 对 数据 本 身 进行 任何 修改 ， 而 只 是 将 数据 内 容 
复制 或 者 移动 到 相应 的 HDFS 目 录 中 。 

(4) 执行 : Hive 中 大 多 数 查 询 的 执行 是 通过 Hadoop 提 供 的 MapReduce 来 实现 的 。 

(5) 执行 延迟 : 之 前 提 到 ，Hive 在 查询 数据 的 时 候 ， 由 于 索引 功能 还 不 够 完善 ， 需 
要 扫描 整个 表 ， 因 此 延迟 较 高 。 另 外 一 个 导致 Hive 执 行 延 迟 高 的 因素 是 MapReduce 
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框架 。 由 于 MapReduce 本 身 具 有 较 高 的 延迟 ， 因 此 在 利用 MapReduce 执 行 Hive 查 询 
时 ， 也 会 有 较 高 的 延迟 。 

(6) 可 扩展 性 : Hive 是 建立 在 Hadoop 之 上 的 ， 因 此 Hive 的 可 扩展 性 是 和 Hadoop 的 
可 扩展 性 一 致 的 。 

(7) 数据 规模 : 由 于 Hive 建 立 在 集群 上 并 可 以 利用 MapReduce 进 行 并 行 计算 ， 因 
此 可 以 支持 很 大 规模 的 数据 。 


5.1.1 Hive 体 系 架 构 


Hive 架 构 如 图 5-1 所 示 。 


Thrift JDBC ODBC 
Application Application Application 
由 Hive Client 
Hive Thrift Hive JDBC Hive ODBC 
Client Driver Driver 
A Hive Web 
CLI Hive Server2 Interface 
Driver Hive Services 
eae) a ee 
Metastore File System Job Client 


Hadoop Cluster/Y ARN/ Hive Storage And 
Jobtracker+Tasktracker Compute 


图 5-1 ”Hive 架 构图 


Hive 系 统 总 体 上 分 为 以 下 几 个 部 分 。 
> UL: 用 户 提交 查询 请 求 与 获得 查询 结果 。 其 包括 三 个 接口 : 命令 行 (CLI)、 
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Web GUI 和 客户 端 。 
> Driver: 接受 查询 请 求 ， 经 过 处 理 后 返回 查询 结果 。 
> Compiler: 编译 器 ， 分 析 查 询 SQL 语句 ， 在 不 同 的 查询 块 和 查询 表达 式 上 
进行 语义 分 析 ， 并 最 终 通 过 从 Metastore 中 查找 表 与 分 区 的 元 信息 生成 执 
行 计 划 。 
> Execution Engine: 执行 引擎 ， 执 行 由 Compiler 创 建 的 执行 计划 ， 执 行 引擎 管 
理 不 同 阶段 的 依赖 关系 ， 通 过 MapReuce 执 行 这 些 阶段 。 
> Metastore: 元 数据 储存 ， 元 数据 存储 在 MYSQL 或 derby 等 数据 库 中 。 元 数据 
包括 Hive 各 种 表 与 分 区 的 结构 化 信息 ， 列 与 列 类 型 信息 ， 序 列 化 器 与 反 序 列 
化 器 等 ， 从 而 能 够 读 写 HDFS 中 的 数据 。 


5.1.2 ”Hive 数 据 模型 


Hive 的 数据 模型 包括 database、table、partition 和 bucket。 

(1) Database: 相当 于 关系 数据 库 里 的 命名 空间 (NameSpace)， 它 的 作用 是 将 用 户 
和 数据 库 的 应 用 隔离 到 不 同 的 数据 库 或 模式 中 ，Hive 提 供 了 create database dbname, 
use dbname 以 及 drop database dbname 这 样 的 语句 。 

(2) 表 (table): Hive 的 表 逻 辑 上 由 存储 的 数据 和 描述 表格 中 的 数据 形式 的 相关 元 
数据 组 成 。 表 存储 的 数据 存放 在 分 布 式 文件 系统 里 ， 例 如 HDFS， 元 数据 存储 在 
关系 数据 库 里 ， 当 我 们 创建 一 张 Hive 的 表 ， 还 没有 为 表 加 载 数据 的 时 候 ， 该 表 在 
分 布 式 文件 系统 ， 例 如 HDFS 上 就 是 一 个 文件 夹 (文件 目录 )。Hive 里 的 表 有 两 种 类 
型 ， 一 种 叫 托管 表 ， 这 种 表 的 数据 文件 存储 在 Hive 的 数据 仓库 里 ， 一 种 叫 外 部 表 ， 
这 种 表 的 数据 文件 可 以 存放 在 Hive 数 据 仓库 外 部 的 分 布 式 文件 系统 上 ， 也 可 以 放 到 
Hive 数 据 仓库 里 (注意 : Hive 的 数据 仓库 就 是 hdfs 上 的 一 个 目录 ， 这 个 目录 是 Hive 数 
据 文 件 存储 的 默认 路 径 ， 它 可 以 在 Hive 的 配置 文件 里 进行 配置 ， 最 终 也 会 存放 到 元 
数据 库 里 )。 

(3) 桶 (bucket): 分 桶 是 将 数据 集 分 解 成 更 容易 管理 的 若干 部 分 的 另 一 个 技术 ， 上 
面 的 table 和 partition 都 是 目录 级 别 的 拆 分 数据 ，bucket 则 是 对 数据 源 数据 文件 本 身 来 
拆 分 数据 。 使 用 桶 的 表 会 将 源 数据 文件 按 一 定 规律 拆 分 成 多 个 文件 。 
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5.1.3 ”Hive 应 用 场景 


Hive 提 供 数据 提取 、 转 换 、 加 载 功 能 ， 并 可 用 类 似 于 SQL 的 语法 ， 对 HDFS 海 量 
数据 库 中 的 数据 进行 查询 、 统 计 等 操作 。 形 象 地 说 ，Hive 更 像 一 个 数据 仓库 管理 工 
具 ， 适 用 于 结构 化 数据 的 应 用 ， 读 多 写 少 的 应 用 ， 响 应 时 间 要 求 不 高 的 场合 。 

Hive 常 用 于 以 下 几 个 方面 : 

(1) 数据 汇总 (每 天 /每 周 用 户 点 击 数 ， 点 击 排行 ); 

(2) 非 实时 分 析 ( 日 志 分 析 ， 统 计 分 析 ); 

(3) 数据 挖掘 (用 户 行为 分 析 ， 兴 趣 分 区 ， 区 域 展示 )。 


5.1.4 ”本 节 技术 要 点 回顾 


Hive 是 基于 Hadoop 平 台 的 数据 仓库 工具 ， 它 将 结构 化 的 数据 映射 成 数据 库 中 的 
表 并 提供 类 SQL 的 语句 对 数据 进行 操作 。Hive 使 用 HDFS 作 为 存储 ， 使 用 MapReduce 
作为 计算 ， 使 用 类 SQL(HQL) 作 为 查询 接口 的 特点 。Hive 可 以 应 用 于 如 下 场景 : 

> Hive 适 应 于 海量 数据 的 离线 分 析 处 理 ， 对 于 读 多 写 少 、 对 响应 时 间 要 求 不 高 

的 场合 适合 使 用 Hive， 如 数据 汇总 、 非 实时 分 析 和 数据 挖掘 等 应 用 。 

> Hive 适 用 于 结构 化 数据 的 处 理 。 

对 于 数据 量 较 小 的 应 用 场景 应 该 使 用 关系 型 数据 库 ， 对 于 海量 数据 ， 同 时 对 查询 
有 实时 性 要 求 且 要 求 比较 高 的 场合 ， 应 该 使 用 其 他 大 数据 工具 ， 如 Impala 和 Spark。 


5.2 Hadoop 分 布 式 数据 库 HBase 


HBase 建 立 在 hdfs 之 上 ， 提 供 高 可 靠 性 、 高 性 能 、 列 存储 、 可 伸缩 、 实 时 读 写 的 
数据 库 系 统 。 它 介 于 nosql 和 RDBMS 之 间 ， 主要 通过 行 键 (row key) 和 行 键 序列 来 检索 
数据 ， 仅 支持 单行 事务 (可 通过 Hive 支 持 来 实现 多 表 联 合 等 复杂 操作 )， 主 要 用 来 存储 
非 结构 化 和 半 结 构 化 的 松散 数据 。 与 Hadoop 一 样 ，HBase 的 目标 是 主要 依靠 横向 扩 
展 ， 通 过 不 断 增加 廉价 的 商用 服务 器 ， 来 增加 计算 和 存储 能 力 。 
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HBase 表 一 般 有 如 下 特点 。 
> 大 : 一 个 表 可 以 有 上 亿 行 ， 上 百 万 列 。 
> 面向 列 : 面向 列 ( 族 ) 的 存储 和 权限 控制 ， 列 ( 族 ) 独 立 检索 。 
> Mi: 对 于 为 空 (null) 的 列 ， 并 不 占用 存储 空间 ， 因 此 ， 表 可 以 设计 得 非常 


5.2.1 HBase 体 系 架构 


HBase 的 服务 器 体系 结构 遵循 主 从 服务 器 架构 。 它 由 HMaster 和 HRegion Server 
组 成 '，HMaster 负 责 管理 所 有 的 HRegion Server，HBase 中 所 有 的 服务 器 都 通过 
ZooKeeper 来 协调 。HBase 的 体系 结构 如 图 5-2 所 示 。 


nm =T- 


| serie | Soone |...|| | ser | 


HBase 


图 5-2 HBase 体 系 结构 图 


HBase 体 系 结构 中 ， 各 部 分 分 别 负责 如 下 工作 。 
HMaster: 


(1) 为 HRegion Server 分 配 HRegion; 
(2) 负责 HRegion Server 的 负载 均衡 ; 
(3) 发 现 失效 的 HRegion Server 并 重新 分 配 其 上 的 HRegion。 
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(4) 管理 用 户 对 table 的 增删 改 查 操作 。 

HRegion Server: 

(1) HRegion Server 维 护 HMaster 分 配给 它 的 HRegion， 处 理 对 这 些 HRegion 的 IO 
请 求 ; 

(2) HRegion Server 负 责 切 分 在 运行 过 程 中 变 得 过 大 的 HRegion。 

ZooKeeper: 

(1) 保证 任何 时 候 ， 和 集群 中 只 有 一 个 HMaster; 

(2) 存储 所 有 HRegion 的 寻 址 入 口 ; 

(3) 实时 监控 HRegion Server 的 状态 ， 将 HRegion Server 的 上 线 和 下 线 信 息 实 时 通 
知 给 HMaster。 

Client: 

HBase Client 使 用 RPC 与 HMaster 和 HRegionServer 通 信 。 对 于 管理 类 操作 ，Client 
与 HMaster 通 信 ， 对 于 数据 读 写 类 操作 ， 与 HRegionServer 通 信 。Client 访 问 HBase 数 据 
的 过 程 并 不 需要 HMaster 参 与 。 

HBase Shell: 

HBase Shell 提供 了 大 量 的 HBase 命令 ， 通 过 HBase Shell 用 户 可 以 方便 地 创建 、 
删除 及 修改 表 ， 还 可 以 向 表 中 添加 数据 、 列 出 表 中 的 相关 信息 等 。 


5.2.2 ”HBase 设 计 思 


> LSM: 采用 LSM 树 (Log-Structured Merge Tree) 作 为 存储 引擎 ， 支 持 增 、 删 、 
读 、 改 、 顺 序 扫描 ， 解 决 磁盘 随机 写 问 题 。 将 对 数据 的 修改 增 量 保持 在 内 存 
中 ， 达 到 指定 的 大 小 限制 后 将 这 些 修 改 操作 批量 写 入 磁盘 ， 读 取 数 据 时 需要 
合并 磁盘 中 的 历史 数据 和 内 存 中 最 近 的 修改 操作 ， 写 入 性 能 大 大 提升 ， 读 取 
时 可 能 需要 先 看 是 否 命中 内 存 ， 否 则 需要 访问 较 多 的 磁盘 文件 。LSM 树 和 B+ 
树 相 比 ，LSM 树 牺牲 了 部 分 读 性 能 ， 用 来 大 幅 提 高 写 性 能 。 

> HFile: 解决 数据 索引 问题 ， 只 有 索引 才能 高 效 读 。 

> WAL: 解决 数据 持久 化 ， 面 对 故障 的 持久 化 。 

> ZooKeeper: 解决 核心 数据 的 一 致 性 和 集群 恢复 。 

> HDFS: 使 用 HDFS 存 储 ， 解 决 数据 副本 和 可 靠 性 问题 。 
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5.23 ”HBase 表 逻辑 视图 


HBase 以 表 的 形式 存储 数据 。 表 由 行 和 列 组 成 ， 列 划分 为 若干 个 列 族 (column 
family)。HBase 表 逻辑 结构 如 图 5-3 所 示 。 


图 5-3 ”HBase 表 逻辑 结构 图 


行 健 

与 nosql 数 据 库 一 样 ， 行 键 (row key) 是 用 来 检索 记录 的 主键 。 访 问 HBase 表 中 的 行 
有 三 种 方式 ， 

> 通过 单个 行 键 访问 ; 

> 通过 行 键 序列 访问 ; 

> 全 表 扫 描 。 

行 键 可 以 是 任意 字符 串 ( 最 大 长 度 是 64KB， 实 际 应 用 中 长 度 一 般 为 10 一 100bytes)， 
在 HBase 内 部 ， 行 键 保存 为 字 节 数 组 。 

存储 时 ， 数 据 按照 行 键 的 字典 序 排序 存储 。 设 计 行 键 时 ， 可 以 充分 利用 排序 存 
储 这 个 特性 ， 将 经 常 一 起 读 取 的 行 存储 放 到 一 起 。 

列 族 

HBase 表 中 的 每 个 列 ， 都 归属 某 个 列 族 。 列 族 是 表 元 数据 的 一 部 分 (而 列 不 是 )， 
必须 在 使 用 表 之 前 定义 。 列 名 都 以 列 族 作 为 前 缀 。 例 如 courses: history. courses: 
math 都 属于 courses 这 个 列 族 。 

访问 控制 、 磁 盘 和 内 存 的 使 用 统计 都 是 在 列 族 层面 进行 的 。 
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时 间 截 

HBase 中 通过 行 键 和 列 确定 的 一 个 存 贮 单元 称 为 cell。 每 个 cell 都 保存 着 同一 份 数 
据 的 多 个 版 本 。 版 本 通过 时 间 惟 来 索引 。 时 间 戳 的 类 型 是 64 位 整 型 。 时 间 戳 可 以 由 
HBase( 在 数据 写 入 时 自动 ) 赋 值 ， 此 时 时 间 惟 是 精确 到 毫秒 的 当前 系统 时 间 。 时 间 惟 
也 可 以 由 客户 显 式 赋值 。 如 果 应 用 程序 要 避免 数据 版 本 冲突 ， 就 必须 自己 生成 具有 
唯一 性 的 时 间 惟 。 每 个 cell 中 ， 不 同 版 本 的 数据 按照 时 间 倒 序 排序 ， 即 最 新 的 数据 排 
在 最 前 面 。 

为 了 避免 煞 据 存在 过 多 版 本 造成 的 管理 (包括 存 贮 和 索引 ) 负 担 ，HBase 提 供 了 两 
种 数据 版 本 回收 方式 。 一 是 保存 数据 的 最 后 n 个 版 本 ， 二 是 保存 最 近 一 段 时间 内 的 版 
本 (比如 最 近 7 天 )。 用 户 可 以 针对 每 个 列 族 进行 设置 。 

单元 

由 {row key，column( =<family> + <label>)，version} 唯一 确定 的 单元 (cell)，cell 
中 的 数据 是 没有 类 型 的 ， 全 部 以 字 节 码 形式 存储 。 


5.24 ”HBase 表 物理 存储 


HBase 表 中 的 所 有 行 都 按照 行 键 的 字典 序 排列 ， 表 在 行 的 方向 上 分 割 为 多 个 
HRegion， 如 图 5-4 所 示 。 


| Store 
1 百 百 > HRegion | [GO StoreFile | ... 
1 日 HFile HFile 
i 日 
| 可 CD Store 
1 
[9 OOO >| HR ooo 
Client } 5 > egion | StoreFile 

coo 5 5 HFile 

=put() oo 5 日 

delete0 |keywalted| 多 Store 

-iner() | 名 oo > HRegion | [ 目 目 目 >| | StoreFile ){ StoreFile | ... 
i = HFile HFile ] 
二 是 | 
上 Log 
i Elush syne() mae 
i Log 
1 [ow EEEEEEEEEEEEES:EEEEEEEEEEEEE 
1 Roller) |rolwnter() : 


图 5-4 HBase 物 理 存 储 示 意图 
HRegion 按 大 小 可 以 分 割 ， 每 一 个 表 一 开始 只 有 一 个 HRegion， 随 着 数据 不 断 插 
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入 表 ，HRegion 不 断 增 大 ， 当 增 大 到 一 定 阔 值 的 时 候 ，HRegion 就 会 等 分 为 两 个 新 的 
HRegion。 当 表 中 的 行 不 断 增多 ， 就 会 有 越 来 越 多 的 HRegion。 

HRegion 是 HBase 中 分 布 式 存储 和 负载 均衡 的 最 小 单元 。 最 小 单元 就 表示 不 同 
的 HRegion 可 以 分 布 在 不 同 的 HRegion Server 上 ， 但 是 一 个 HRegion 不 会 拆 分 到 多 个 
HRegion Server 上 。 

HRegion 虽 然 是 分 布 式 存储 的 最 小 单元 ， 但 不 是 存储 的 最 小 单元 。HRegion 由 一 
个 或 者 多 个 Store 组 成 ， 每 一 个 Store 都 保存 一 个 列 族 。 每 一 个 Store 又 由 一 个 memStore 
和 多 个 StoreFile 组 成 ，StoreFile 以 HFile 格 式 保存 在 HDFS 上 。 


5.25 ”本 节 技术 要 点 回顾 


HBase 是 基于 HDFS 的 面向 列 的 分 布 式 数 据 库 系统 ，HBase 具 有 高 可 靠 性 、 高 性 
能 、 列 存储 、 可 伸缩 、 实 时 读 写 的 特点 。HBase 的 可 适应 于 如 下 场景 : 
> 存储 和 查询 半 结 构 化 和 非 结构 化 的 数据 ; 
> 存储 和 查询 记录 稀 路 的 数据 ， 这 样 既 能 节省 空间 ， 又 能 提高 读 性 能 。 
> 存储 和 查询 超大 数据 量 的 数据 。 
> 业务 场景 简单 ， 不 需要 全 部 的 关系 数据 库 特性 ,例如 交叉 列 、 交 又 表 、 事 
务 、 连 接 等 操作 的 场景 。 


5.3 Hadoop 实 时 流 处 理 引 擎 Storm 


Apache Storm 是 开源 分 布 式 实时 计算 系统 ，2014 年 9 月 ，Storm 正 式 升级 为 Apache 
顶级 项 目 ， 同 Hadoop 一 样 Storm 也 可 以 处 理 大 批量 的 数据 ， 然 而 Storm 在 保证 高 可 
靠 性 的 前 提 下 还 可 以 让 处 理 进行 得 更 加 实时 ， 也 就 是 说 ， 所 有 的 信息 都 会 被 处 理 。 
Storm 同 样 还 具备 容错 和 分 布 计算 这 些 特性 ， 这 就 让 Storm 可 以 扩展 到 不 同 的 机 器 上 
进行 大 批量 的 数据 处 理 。 

Storm 可 水 平 扩展 ， 支 持 容错 ， 保 证 所 有 数据 被 处 理 ， 易 于 安装 维护 ， 可 以 使 用 
各 种 程序 设计 语言 开发 ， 具 备 高 性 能 ， 单 节点 每 秒 可 以 处 理 上 百 万 记录 。 
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5.3.1 _ Storm 体系 架构 


Storm 是 典型 Master-Slave 架 构 ，Storm 集 群 中 有 两 种 节点 ， 一 种 是 控制 节点 
(Nimbus 节 点 )， 另 一 种 是 工作 节点 (Supervisor 节 点 )。Topology 任 务 提交 给 Nimbus 节 
点 ，Nimbus 分 配给 其 他 Supervisor 节 点 进行 处 理 。Nimbus 节 点 首先 将 提交 的 Topology 
进行 分 片 ， 分 成 一 个 个 的 Task， 并 将 Task 和 Supervisor 相 关 的 信息 提交 到 ZooKeeper 集 
群 上 ，Supervisor 会 去 ZooKeeper 集 群 上 认领 自己 的 Task， 通 知 自己 的 Worker 进 程 进行 
Task 的 处 理 。Storm 架 构 如 图 5-5 所 示 。 


Nimbus 


Supervisor Supervisor Supervisor 
Se Y ite 
Worker Worker Worker 
Executor Executor Executor Executor Executor Executor 
Task | Task Task | Task Task | Task Task | Task Task | Task Task | Task 
Task | Task Task | Task Task | Task Task | Task Task | Task Task | Task 


图 5-5 ”Storm 架 构图 

> Nimbus: 主 控 守护 进程 ， 用 于 调度 分 布 在 集群 中 的 节点 ， 分 配 任务 和 监测 故障 。 

> Supervisor: 工作 节点 守护 进程 ， 用 于 收听 工作 指派 并 根据 Nimbus 要 求 启动 
worker 进 程 。 每 个 工作 节点 都 是 topology 中 一 个 子 集 的 实现 。 

> ZooKeeper: ZooKeeper 是 完成 Supervisor 和 Nimbus 之 间 协 调 的 服务 。 

> Worker 进 程 : 运行 具体 处 理 组 件 逻 辑 的 进程 ，Storm 集 群 的 任务 构造 者 ， 构 
造 Spoult 或 Bolt 的 Task 实 例 ， 启 动 Executor 线 程 。 

> Executor 线 程 : Storm 集 群 的 任务 执行 者 ， 循 环 执行 Task 代 码 。 

> Task: 1 个 Task 执 行 实际 的 数据 处 理 远 辑 ，Task 是 最 终 运行 Spout 或 Bolt 中 代码 
的 单元 。 
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5.3.2 Storm 数据 流 模型 


Storm 实现 了 一 种 数据 流 模型 ， 其 中 数据 持续 地 流 经 一 个 转换 实体 网 络 。 一 个 
数据 流 的 抽象 称 为 一 个 流 ， 这 是 一 个 无 限 的 元 组 序列 。 元 组 就 像 一 种 使 用 一 些 附 加 
的 序列 化 代码 来 表示 标准 数据 类 型 (比如 整数 、 浮 点 和 字 节 数组 ) 或 用 户 定义 类 型 的 
结构 。 每 个 流 由 一 个 唯一 ID 定义 ， 这 个 ID 用 于 构建 数据 源 和 接收 器 (sink) 的 拓扑 结 
构 一 一 Topology( 实 时 计算 任务 )。 

流 起 源 于 喷嘴 Spout， 喷 嘴 将 数据 从 外 部 来 源流 入 Storm 拓扑 结构 中 。 计 算 处 理 
器 称 为 螺栓 Bolt， 通 过 实现 Spout 和 Bolt 接 口 完成 对 业务 逻辑 的 处 理 ， 如 图 5-6 所 示 。 


Spout 


Stream 
source 


Spout 


图 5-6 ”Storm 数 据 流 图 


Storm 的 Topology 从 启动 开始 就 一 直 运 行 ， 只 要 有 tuple 到 来 ， 各 个 环节 就 会 被 出 
发 执行 。 需 要 注意 的 是 ， 所 有 的 Spout 方 法 尽量 不 要 有 能 够 引入 阻塞 的 逻辑 ， 因 为 所 
有 的 Spout 方 法 是 在 同一 个 线程 中 调用 的 ， 如 果 某 个 方法 被 阻塞 ， 后 续 的 方法 调用 也 
将 会 被 阻塞 。 

Bolt 是 Storm 中 处 理 数据 的 核心 ， 可 以 做 很 多 种 的 数据 处 理工 作 ， 例 如 filtering、 


functions、aggregations、joins 等 。 


5.3.3 ” ”Storm 数据 流 分 发 方式 


Storm 中 的 所 有 的 Bolt 处 理 数据 都 是 可 以 并 行 的 ， 每 一 种 Bolt 都 会 由 一 定数 目的 
Bolt 任 务实 例 负责 并 发 处 理 。 因 此 需要 负载 均衡 策略 来 处 理 tuple 在 bolt 间 的 分 发 。 
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Storm 提 供 了 流 的 分 组 (Stream Groupings)， 用 来 控制 (Spout，Bolb 之 间 元 组 处 理 的 负 
载 分 发 策略 ，Storm 提 供 了 几 种 内 置 的 分 发 策略 ， 如 图 5$-7 所 示 。 


图 5-7 ”Storm 数 据 流 分 发 方式 图 

> Shuffle grouping: 随机 均匀 分 发 到 所 有 的 bolts 中 。 

Fields grouping: 按照 tuple 中 的 某 个 字段 分 配 任务 ， 同 一 个 key 的 tuple 由 同一 
个 bolt 处 理 ， 不 同 key 的 tuple 可 能 由 不 同 的 bolt 处 理 。 

> All grouping: 每 一 个 tuple 将 会 复制 到 每 一 个 bolt 中 处 理 。 

> Global grouping: stream 中 的 所 有 的 tuple 都 会 发 送 给 同一 个 bolt 任 务 处 理 ， 所 
有 的 tuple 将 会 发 送 给 拥有 最 小 task_id 的 bolt 任 务 处 理 。 

> None grouping: 不 关注 并 行 处 理 负载 均衡 策略 时 使 用 该 方式 ， 目 前 等 同 于 
shuffle grouping， 另 外 storm 将 会 把 bolt 任 务 和 他 的 上 游 提 供 数据 的 任务 安排 在 
同一 个 线程 下 。 

> Direct grouping: 由 tuple 的 发 射 单元 直接 决定 tuple 将 发 射 给 哪个 bolt， 一 般 情 
况 下 是 由 接收 tuple 的 bolt 决 定 接收 哪个 bolt 发 射 的 tuple。 

> Local or shuffle grouping: 如 果 发 射 方 bolt 的 任务 和 接收 方 的 bolt 任 务 在 同一 
个 工作 进程 下 ， 则 优先 发 送 给 同一 个 进程 下 的 接收 方 bolt 任 务 ， 否 则 和 shufle 
grouping 策 略 一 样 。 


5.3.4 Storm 应 用 场景 


> 信息 流 处 理 : Storm 可 用 来 实时 处 理 新 数据 和 更 新 数据 库 ， 兼 具 容 错 性 和 可 
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扩展 性 ， 即 Storm 可 以 用 来 处 理 源源 不 断 流 进 来 的 消息 ， 处 理 之 后 将 结果 写 
入 某 个 存储 中 。Storm 输 入 输出 支持 Kafka、HBase、RabbitMQ 、Database、 
JMS, 、RocketMQ 、ZeroMQ 等 。 


> 连续 计算 : Storm 可 进行 连续 查询 ， 并 把 结果 即时 反馈 给 客户 端 。 
> 支持 分 布 式 远程 程序 调用 (DRPC): 分 布 式 RPC 通 过 “DRPC server” 协 调 。 


DRPC 服 务 器 协调 接收 一 个 RPC 请 求 ， 发 送 请 求 到 Storm 拓 扑 ， 从 Storm 拓 扑 
接收 结果 ， 发 送 结果 回 等 待 的 客户 端 。 从 客户 端的 角度 来 看 ， 一 个 分 布 式 


RPC 调 用 就 像 是 一 个 常规 的 RPC 调 用 。 


> ETL 处 理 : 


通过 Storm 进 行 数据 的 抽取 、 转 换 及 加 载 处 理 。 


> 在 线 机 器 学 习 。 


5.3.5 ”本 节 技 术 要 点 回顾 


Storm 是 开源 分 布 式 实 时 计算 系统 ，Storm 具 有 可 水 平 扩展 、 支 持 容 错 、 保 证 所 


有 数据 被 处 理 、 易 
Storm 在 信息 流 处 到 
场景 下 都 适用 。 


于 安装 维护 、 可 以 使 用 各 种 程序 设计 语言 开发 、 高 性 能 等 优点 。 
E、 连 续 计 算 、 分 布 式 远程 程序 调用 、ETL 处 理 、 在 线 机 器 学 习 等 


5.4 Hadoop 交 互 式 查询 引擎 Impala 


Hive 在 查询 数据 的 时 候 ， 采 用 了 MapReduce 执 行 框架 。 由 于 MapReduce 本 身 具 有 
较 高 的 延迟 ， 因 此 在 利用 MapReduce 执 行 Hive 查 询 时 ， 延 时 比较 长 。 为 了 提升 查询 速 
度 解决 Hadoop 批 处 理 延迟 问题 ，Cloudera 公 司 发 布 了 Impala 实 时 查询 引擎 。 

Impala 是 基于 MPP 的 SQL 查 询 系 统 ， 可 以 直接 为 存储 在 HDFS 或 HBase 中 的 
Hadoop 数 据 提供 快速 、 交 互 式 的 SQL 查 询 。Impala 和 Hive 一 样 也 使 用 了 相同 的 元 数 


据 、SQL 语 法 (Hive 


SQL)、ODBC 驱 动 和 用 户 接口 (Hue Beeswax)， 这 就 很 方便 地 为 用 


户 提供 了 一 个 相似 并 且 统 一 的 平台 来 进行 批量 或 实时 查询 。 
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Impala 设 计 目 标 : 
(1) 分 布 式 环境 下 通用 SQL 引擎 ， 既 支持 OLIP， 也 支持 OLAP; 
(2) SQL 查询 的 规模 和 粒度 ， 从 毫秒 级 到 小 时 级 ; 
(3) 底层 存储 依赖 HDFS 和 HBase; 
(4) 使 用 更 加 高 效 的 C++ 编 写 ; 
(5) SQL 的 执行 引擎 借鉴 了 分 布 式 数据 库 MPP 的 思想 而 不 再 依赖 MapReduce。 


5.4.1 Impala 体 系 结构 


Impala 系 统 架构 图 如 图 5-8 所 示 。 


Common Hive SQL and interface 
Unified metadata 


Local Direct Reads 


图 5-8 ”Impala 架 构图 

Impala 主 要 包括 以 下 组 成 部 分 。 

> Impala shell: 客户 端 工 具 ， 提 供 一 个 交互 接口 ODBC， 供 使 用 者 连接 到 
Impalad 发 起 数据 查询 或 管理 任务 等 。 

> Impalad: 分 布 式 查询 引擎 ， 由 Query Planner, Query Coordinator 和 Query 
Exec Engine 三 部 分 组 成 ， 可 以 直接 从 HDFS 或 者 HBase 中 用 SELECT、JOIN 和 
统计 函数 查询 数据 。 

> State Store: 主要 跟踪 各 个 Impalad 实 例 的 位 置 和 状态 ， 让 各 个 Impalad 实 例 
以 集群 的 方式 运行 起 来 。 
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> Catalog Service: 主要 跟踪 各 个 节点 上 对 元 数据 的 变更 操作 ， 并 且 通 知 到 每 
NF Bo 
Impala 支 持 以 下 特性 : 
> 支持 ANSI-92 SQL 所 有 子 集 ， 包 括 CREATE、ALTER、SELECT、INSERT、 
JOIN 和 subqueries; 
> 支持 分 区 join、 完 全 分 布 式 聚合 以 及 完全 分 布 式 top-n 查 询 ; 
> 支持 多 种 数据 格式 ， 如 Hadoop 原 生 格式 (pache Avro、SequenceFile、RCFile 
with Snappy、GZIP、BZIP 或 未 压缩 )、 文 本 (未 压缩 或 者 LZO 压 缩 ) 和 
Parquet(Snappy 或 未 压缩 )。 
> 可 以 通过 JDBC、ODBC、Hue GUI 或 者 命令 行 shell 进 行 连 接 。 


5.4.2 ”Impala 内 部 流程 


Impala 内 部 流程 如 图 5-9 所 示 。 


图 5-9 Impala 内 部 流程 图 


Impala 内 部 包括 Impalad、statestore 和 catalog 三 个 组 件 ， 具 体 如 下 。 
> Impalad: 分 为 frontend 和 backend 两 部 分 ， 这 个 进程 有 三 个 ThriftServer(beeswax_ 
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SeIVer，hs2 server，be_server) 对 系统 外 和 系统 内 提供 服务 。frontend 接 收 
impala-shell 命 令 、Hue、JDBC 和 ODBC 发 送 来 的 请 求 ， 解 析 成 执行 计划 ， 
通过 backend 的 Coordinator 发 送 消息 给 Exec Engine 和 集群 中 其 他 impala 节 点 
backend 的 Exec Engine， 其 他 节点 返回 查询 结果 给 此 节点 。 查 询 可 以 发 送 给 任 
意 一 个 节点 上 运行 的 impalad 进 程 ， 这 个 节点 叫做 这 个 查询 的 协调 节点 ， 其 他 
处 理 协调 节点 发 送 请 求 的 节点 ， 返 回 各 自 查询 结果 给 协调 节点 ， 所 有 的 节点 
的 返回 结果 构成 了 最 终 的 查询 结果 。 
> Statestored: 集群 内 各 个 backend service 的 数据 交换 中 心 ， 每 个 backend 会 
在 statestored 注 册 ， 以 后 statestored 会 与 所 有 注册 过 的 backend 交 换 update 消 
息 。 每 个 集群 中 只 有 一 个 statestored 进 程 。 如 果 一 个 impala 节 点 进程 离线 ， 
statestored 会 通知 所 有 其 他 impala 节 点 ， 所 以 以 后 的 查询 不 会 发 送 给 此 不 可 及 
的 节点 。 
> Catalogd: 此 进程 负责 操作 metedata。 当 Impala SQL 语句 改变 了 metadata， 它 
通过 statestored 传 递 metadata 改 变 信 息 给 集群 中 所 有 impala 节 点 。 每 个 集群 中 
只 有 一 个 catalogd 进 程 。 


5.4.3 Impala 与 Hive 的 关系 


Impala 与 Hive 都 是 构建 在 Hadoop 之 上 的 数据 查询 工具 。 从 客户 端 使 用 来 看 ， 
Impala 与 Hive 有 很 多 的 共同 之 处 ， 如 数据 表 元 数据 、ODBC/JDBC 了 驱动 、SQL 语 法 、 
灵活 的 文件 格式 、 存 储 资 源 池 等 。Hive 适 合 于 长 时 间 的 批 处 理 查 询 分 析 ， 而 Impala 适 
合 于 实时 交互 式 SQL 查 询 。Impala 给 数据 分 析 人 员 提 供 了 快速 实验 、 验 证 想法 的 大 数 
据 分 析 工 具 。 
Impala 相 对 于 Hive 的 优势 
> Impala 没 有 使 用 MapReduce 进 行 并 行 计算 ， 把 整个 查询 分 成 一 执行 计划 树 ， 
Impala 使 用 拉 式 获取 数据 的 方式 获取 结果 ， 把 结果 数据 组 成 按 执行 树 流 式 传 
递 汇集 ,减少 了 把 中 间 结 果 写 入 磁盘 的 步骤 ， 再 从 磁盘 读 取 数 据 的 开销 。 
Impala 使 用 服务 的 方式 避免 每 次 执行 查询 都 需要 启动 的 开销 ， 即 相 比 Hive 没 
了 MapReduce 启 动 时 间 。 

> 使 用 LLVM 产 生 运 行 代码 ， 针 对 特定 查询 生成 特定 代码 ， 同 时 使 用 Inline 的 方 
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式 减 少 函 数 调用 的 开销 ， 加 快 执行 效率 。 
> 充分 利用 可 用 的 硬件 指令 。 
> 更 好 的 IO 调 度 ，Impala 知 道 数据 块 所 在 的 磁盘 位 置 ， 能 够 更 好 地 利用 多 磁盘 
的 优势 ， 同 时 Impala 支 持 直接 数据 块 读 取 。 
> 通过 选择 合适 的 数据 存储 格式 可 以 得 到 最 好 的 性 能 (Impala 支 持 多 种 存储 格式 )。 
> 最 大 使 用 内 存 ， 中 间 结 果 不 写 磁盘 ， 及 时 通过 网 络 以 stream 的 方式 传递 。 


5.4.4 ”本 节 技 术 要 点 回顾 


Impala 基 于 MPP 的 SQL 查 询 系 统 ， 可 以 直接 为 存储 在 HDFS 或 HBase 中 的 Hadoop 
数据 提供 快速 、 交 互 式 的 SQL 查 询 。 与 Hive 相 比 ，Impala 中 间 结 果 不 写 磁盘 ， 而 是 通 
过 网 络 和 stream 的 方式 传递 ， 能 最 大 地 使 用 内 存 。Impala 支 持 多 种 存储 格式 ， 有 着 更 
好 的 IO 调 度 和 执行 效率 。Impala 的 应 用 场景 应 满足 如 下 条 件 : 

> 查询 结果 集 不 大 ， 应 该 小 于 内 存 ; 

> 短 查询 ， 因 为 Impala 查 询 不 容错 ; 

> 某 些 应 用 场景 下 Impala 配 合 Hive 使 用 会 发 挥 更 好 的 效果 。 


5.5 其 他 常用 组 件 


5.5.1 Oozie 


Oozie 是 服务 于 Hadoop 生 态 系统 的 工作 流 调度 工具 ，job 运 行 平台 是 区 别 于 其 他 
调度 工具 的 最 大 的 不 同 ， 但 其 实现 的 思路 跟 一 般 调 度 工具 几乎 完全 相同 。 

Oozie 工 作 流通 过 HPDL( 一 种 通过 XML 自 定义 处 理 的 语言 ， 类 似 JBOSS JBPM 的 
JPDL) 来 构造 。 

Oozie 工 作 流 中 的 Action 在 远程 系统 (如 Hadoop，Pig 服 务 器 上 ) 运 行 。 一 旦 Action 
完成 ， 远 程 服务 器 将 回调 Oozie 的 接口 ， 并 通知 Action 已 经 完成 ， 这 时 Oozie 又 会 
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以 同样 的 方式 执行 工作 流 中 的 下 一 个 Action， 直 到 工作 流 中 所 有 Action 都 完成 (完成 
包括 失败 ) 。 

Oozie 工 作 流 提供 各 种 类 型 的 Action 用 于 支持 不 同 的 需要 ， 如 Hadoop Map/ 
Reduce, Hadoop File System, Pig, SSH, HTTP, Email, Java 以 及 Oozie 子 流程 。 
Oozie 也 支持 自 定义 扩展 以 上 各 种 类 型 的 Action。 

Oozie 任 务 分 为 三 种 模式 ; 

> workflow， 这 种 方式 最 简单 ， 就 是 定义 DAG 来 执行 ; 

> coordinator， 构 建 在 workflow 工 作 方式 之 上 ， 提 供 定 时 运行 和 触发 运行 任务 

的 功能 ; 

> bundle， 作 用 就 是 将 多 个 coordinator 管 理 起 来 ， 这 样 我 们 只 需要 提供 一 个 

bundle 提 交 即 可 ， 然 后 可 以 start/stop/suspend/resume 任 何 coordinator。 

Oozie 的 系统 架构 如 图 5-10 所 示 。 


Oozie Client 


ee 


图 5-10 ”Oozie 架 构图 


一 个 正常 工作 的 Oozie 系 统 须 包 含 如 下 4 个 模块 : Oozie Client、Oozie Server, 
DataBase 和 Hadoop 集 群 。 

Oozie Client 可 以 通过 Web Service API, Java API、Command line 向 Oozie Server 提 
交工 作 流 任务 请 求 。Oozie 客 户 端 可 以 通过 REST API 或 者 Web GUI 来 从 Oozie 服 务 端 获 
取 Job 的 日 志 流 。 通 常 在 Client 端 包括 工作 流 配置 文件 、 工 作 流 属性 文件 和 工作 流 库 。 

Oozie Server 负 责 接 收 客户 端 请 求 、 调 度 工作 任务 、 监 控 工作 流 的 执行 状态 。 
Oozie 本 身 不 会 执行 具体 的 job， 而 是 将 job 的 配置 信息 发 送 到 执行 环境 。 

DataBase 用 于 存储 Bundle、Coordinator、Workflow 工 作 流 的 action 信 息 、 job 信 
息 ， 记 录 Oozie 系 统 信息 。 简 单 来 说 ， 除 了 Oozie 运 行 日 志 存 在 本 地 硬盘 而 不 存在 DB 
中 ， 其 他 信息 都 存储 到 DB。 
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Hadoop 集 群 运行 Oozie 工 作 流 的 实体 ， 负 责 处 理 Oozie Server 提 交 来 的 各 种 job， 
包括 HDFS、MapReduce、Hive、Sqoop 等 Hadoop 组 件 提 交 的 job 。 


5.5.2 Kafka 


传统 的 日 志 分 析 系 统 提 供 了 一 种 离线 处 理 日 志 信息 的 可 扩展 方案 ， 但 若 要 进行 
实时 处 理 ， 通 常会 有 较 大 延迟 。 而 现 有 的 消息 (队列 ) 系 统 能 够 很 好 地 处 理 实时 或 者 近 
似 实时 的 应 用 ， 但 未 处 理 的 数据 通常 不 会 写 到 磁盘 上 ， 这 对 于 Hadoop 之 类 (一 小 时 或 
者 一 天 只 处 理 一 部 分 数据 ) 的 离线 应 用 而 言 ， 可 能 存在 问题 。Kafka 正 是 为 了 解决 以 上 
问题 而 设计 的 ， 它 能 够 很 好 地 离线 和 在 线 应 用 。 

Kafka 架 构 如 图 $-11 所 示 。 


Topic-I > consumer 

producer Partition-0 
Topic-1 > consumer 

producer Partition-1 
Topic-1 > consumer 

Zookeeper Partition-2 

Stores Information about cluster |< > 
status and consumer offsets Kafka Cluster 


图 $-11 Kafka 架构 图 


Kafka 是 显 式 分 布 式 架构 ，producer、broker(Kafka) 和 consumer 都 可 以 有 多 个 。 
Kafka 的 作用 类 似 于 缓存 ， 即 活跃 的 数据 和 离线 处 理 系 统 之 间 的 缓存 。 这 里 叙述 几 
个 基本 概念 。 

(1) message( 消 息 ) 是 通信 的 基本 单位 ， 每 个 producer 可 以 向 一 个 topic( 主 题 ) 发 
布 一 些 消息 。 如 果 consumer 订 阅 了 这 个 主题 ， 那 么 新 发 布 的 消息 就 会 广播 给 这 些 
consumer o 

(2) Kafka 是 显 式 分 布 式 的 ， 多 个 producer、consumer 和 broker 可 以 运行 在 一 个 大 
的 集群 上 ， 作 为 一 个 逻辑 整体 对 外 提供 服务 。 对 于 consumer， 多 个 consumer 可 以 组 成 
一 个 group， 这 个 message 只 能 传输 给 某 个 group 中 的 某 一 个 consumer。 


第 5 章 
Hadoop 其 他 常用 组 件 
Kafka 的 特性 : 
(1) 数据 在 磁盘 上 存 取 代价 为 0(1); 
(2) 高 吞吐 率 ， 即 使 在 普通 的 节点 上 每 秒 钟 也 能 处 理 成 百 上 千 的 message; 
(3) 显 式 分 布 式 ， 即 所 有 的 producer、broker 和 consumer 都 会 有 多 个 ， 均 为 分 布 式 的 ; 
(4) 支持 数据 并 行 加载 到 Hadoop 中 。 


5.5.3 Sqoop 


Sqoop 即 SQL to Hadoop， 是 一 款 方便 在 传统 型 数据 库 与 Hadoop 之 间 进 行 数据 迁 
移 的 工具 ， 充 分 利用 MapReduce 并 行 特点 ， 以 批 处 理 的 方式 加 快 数据 传输 ， 发 展 至 今 
主要 演化 了 两 大 版 本 ， 即 Sqoop1 和 Sqoop2。 

Sqoop 工 具 是 Hadoop 下 连接 关系 型 数据 库 和 Hadoop 的 桥梁 ， 支 持 关 系 型 数据 库 
和 Hive、HDFS，HBase 之 间 数 据 的 相互 导入 ， 可 以 使 用 全 表 导 入 和 增 量 导入 。 

Sqoop 高 效 、 可 控 地 利用 资源 ， 可 以 自动 进行 数据 类 型 的 映射 与 转化 ， 同 时 支持 
多 种 主流 数据 库 ， 如 MySQL、Oracle、SQL Server、DB2 等 。 

Sqoop2 的 架构 如 图 5-12 所 示 。 


图 5-12 ”Sqoop2 架 构图 
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5.5.4 其 他 


除了 Oozie、Sqoop、Kafka 外 ，Flume、Chukwa 等 也 是 常用 组 件 。 

Flume 是 Cloudera 提 供 的 一 个 高 可 用 的 、 高 可 靠 的 、 分 布 式 的 海量 日 志 采 集 、 聚 
合 和 传输 的 系统 ，Flume 支 持 在 日 志 系统 中 定制 各 类 数据 发 送 方 ， 用 于 收集 数据 ; 同 
时 ，Flume 提 供 对 数据 进行 简单 处 理 ， 并 写 到 各 种 数据 接受 方 (可 定制 ) 的 能 力 。 

Chukwa 是 一 个 开源 的 、 用 于 监控 大 型 分 布 式 系统 的 数据 收集 系统 。Chukwa 还 包 
含 了 一 个 强大 和 灵活 的 工具 集 ， 可 用 于 展示 、 监 控 和 分 析 已 收集 的 数据 。 

限于 篇 幅 ， 本 文 不 再 一 一 介绍 。 
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6.1 内 存 计算 与 Spark 


6.1.1 Apache Spark 简 介 


Apache Spark 是 一 套 由 UC Berkeley AMP 实 验 室 开 发 ， 基 于 内 存 计 算 的 开源 分 布 
式 计算 框架 。 面 向 海量 规模 数据 ，Apache Spark 能 够 提供 低 延 迟 、 高 性 能 的 数据 处 理 。 
Apache Spark 在 整个 生态 圈 中 的 位 置 如 图 6-1 所 示 ， 与 Tez、Stormm 等 并 列 为 计算 框架 。 


集群 安装 、 部 署 、 配 置 、 管 理工 具 
Ambari 


数据 仓库 
Hive2 


数据 流 处 理 | 数据 挖 据 库 
Pig Mathout 


vf | RECTOR (PRS HIT IC I a) P 
| | Bit 7 
i fe | 资源 管理 框架 YARN 43 

| 分 布 式 文件 系统 HDFS2 | HK 


图 6-1 Apache Spark 在 生态 圈 中 的 位 置 

Apache Spark 借 鉴 和 改进 了 另外 两 个 著名 的 分 布 式 计算 框架 MapReduce、Dryad 
的 设计 思想 。 传 统 的 Apache Hadoop 基 于 MapReduce 机 制 ， 在 面 对 需 要 重复 利用 程序 
产生 的 中 间 数 据 的 应 用 时 (例如 机 器 学 习 领 域 会 频繁 用 到 的 梯度 下 降 算法 、 图 计算 算 
法 等 )， 由 于 MapReduce 机 制 本 身 的 限制 ， 两 个 MapReduce 作 业 之 间 想 要 共享 数据 ， 
一 般 需 要 将 数据 写 入 到 外 置 稳定 文件 系统 ， 例 如 HDFS 当 中 ， 在 需要 重复 使 用 的 时 
候 再 将 数据 读 出 ， 且 写 入 时 会 有 多 个 副本 ， 因 此 会 造成 很 大 的 磁盘 IO 开销 。Apache 
Spark 则 立足 于 内 存 计算 ， 使 用 高 速 内 存 代 蔡 磁 盘 来 存储 数据 处 理 过 程 中 产生 的 中 间 
数据 ， 下 一 次 操作 可 以 直接 从 内 存 中 读 取 ， 因 此 相 比 Apache Hadoop, Apache Spark 
在 迭代 式 应 用 上 运行 性 能 提升 显著 ， 甚 至 可 达 百 倍 之 多 。 这 里 需要 特别 强调 的 是 ， 
内 存 计算 指 的 是 迭代 运算 中 或 者 SQL 中 反复 处 理 的 表 ， 即 对 于 同一 个 数据 集 反 复 运 
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算 时 ， 可 以 将 该 数据 集 缓存 到 内 存 中 ， 如 cache 一 个 RDD 或 者 cache 一 张 表 ， 非 指 
Shuffle 过 程 的 数据 在 内 存 中 ， 这 块 处 理 与 MapReduce 一 致 ， 均 是 需要 落 到 Map 端 本 
地 磁盘 的 。 此 外 ，Apache Spark 兼 容 Apache Hadoop 的 API， 能 够 读 写 HDFS、HBase 中 
的 文件 ， 提 供 包括 Map 和 Reduce 操 作 在 内 更 多 的 数据 操作 接口 ， 编 程 模型 也 比 Apache 
Hadoop 更 加 灵活 易 用 。 

由 于 出 色 的 运算 性 能 和 丰富 的 特性 ，Apache Spark 已 经 成 为 当前 主流 的 大 数据 处 
理 框架 ，2013 年 6 月 ，Apache Spark 入 选 Apache 软 件 基 金 会 的 锤 化 器 项 目 ; 2014 年 2 月 ， 
Apache Spark 成 功 从 Apache 软 件 基 金 会 孵化 成 功 ， 成 为 Apache 旗 下 又 一 个 顶级 项 目 。 


6.1.2 Apache Spark 的 特点 


Apache Spark 主 要 有 如 下 特点 。 

> 速度 快 ， 在 2014 Daytona GraySort 比 赛 中 取得 了 第 一 ， 之 前 很 长 一 段 时 间 
均 由 Apache Hadoop 的 MapReduce 保 持 ， 且 相对 于 前 记录 ， 是 在 使 用 了 1/10 
的 资源 情况 下 ， 耗 时 仅 为 之 前 的 1/3 ， 这 个 相对 于 MapReduce 来 说 ， 是 单 次 
MapReduce 的 性 能 胜出 ， 因 为 两 者 中 间 的 shufe 数 据 均 需要 落 到 本 地 磁盘 。 

> 开发 简单 ， 对 开发 人 员 提 供 Scala/Java/Python/R 实 现 的 API 接 口 ， 实 现 同 
样 功能 ， 所 需要 编写 的 代码 行 数 也 远 远 少 于 Apache Hadoop 环 境 下 的 开 
发 代码 行 数 。 有 着 丰富 算 子 方便 业务 实现 ， 如 : Map, 、filter、flatMap、 
MapPartitions, sample, pipe, union, groupByKey, reduceByKey, 
sortByKey、join、count、take、countByValue 等 。 流 式 处 理 和 批 处 理 的 业务 
逻辑 处 理 代码 可 以 复 用 。 

> 支持 DAG， 现 阶段 实现 DAG 有 以 下 两 种 常见 的 方式 ， 一 是 自 底 而 上 的 ， 如 
Tez 的 模式 ， 二 是 自 顶 而 下 的 方式 ， 如 Spark、Flink。 自 顶 而 下 的 方式 有 两 点 
好 处 : 一 是 开发 简单 ， 使 用 简单 也 是 Spark 的 一 个 自始至终 的 设计 理念 ; 二 是 
性 能 提升 ， 相 对 于 MapReduce 来 说 ， 其 节省 了 多 次 Reduce 中 间 HDFS 落 地 的 
时 间 。 

> 一 站 式 解决 ， 涵 盖 了 从 批 处 理 、 流 处 理 、 机 器 学 习 、 图 计算 、SQL 等 多 种 应 
用 模式 ， 降 低 了 企业 人 员 成 本 及 组 件 维护 成 本 ， 同 时 节省 了 多 个 组 件 之 间 的 
数据 传递 的 无 效 损耗 ， 如 中 间 数 据 存 放 在 HDFS 中 。 
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> 高 度 可 扩展 性 ， 实 际 生产 环境 中 最 多 支持 超过 8 000 个 节点 。 
> 丰富 的 第 三 方 库 和 日 益 成 熟 的 生态 环境 ,包括 应 用 于 流 处 理 领 域 的 Spark 
Streaming， 应 用 于 图 像 处 理 领 域 的 GraphX， 应 用 机 器 学 习 领 域 的 MLlib， 应 用 
于 数据 查询 领域 的 Spark SQL， 以 及 应 用 于 金融 和 统计 领域 的 SparkR， 等 等 。 
> 基于 函数 式 编程 语言 Scala 实 现 ，Apace Spark 的 核心 代码 行 数 与 Apache 
Hadoop 相 比 数 量 少 很 多 ， 却 能 实现 不 差 于 后 者 的 功能 及 性 能 。 
> 简单 、 快 速 、 一 站 式 解 决 ， 以 及 现在 活跃 的 社区 ， 大 大 降低 了 大 数据 在 企业 
应 用 中 的 门槛 ， 同 时 相对 于 其 他 的 大 数据 组 件 也 可 以 很 大 程度 地 降低 企业 的 


6.1.3 Apache Spark 的 由 来 及 历史 


Spark 于 2009 年 诞生 于 UC Berkeley AMP Lab， 它 最 初 属于 伯克利 大 学 的 研究 性 
项 目 ， 后 来 在 2010 年 正式 开源 ， 并 于 2013 年 成 为 了 Apache 基 金 项 目 ， 到 2014 年 成 为 
Apache 基 金 的 顶级 项 目 ， 整 个 发 展 过 程 不 到 五 年 时 间 。 

正 由 于 Spark 来 自 于 大 学 ， 其 整个 发 展 过 程 都 充满 了 学 术 研 究 的 标记 ， 是 学 术 带 
动 Spark 核 心 架 构 的 发 展 ， 如 弹性 分 布 式 数据 集 (RDDD，resilient distributed datasets), 
Shark@， 相 关 的 文档 也 对 学 习 Spark 本 身 有 很 好 的 借鉴 意义 。 


6.2 Spark 的 主要 概念 


6.2.1 RDD 


RDD (弹性 分 布 式 数据 集 ，Resilient Distributed Dataset, 下 文 简称 RDD) 是 Apache 


@ Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy 
McCauley, Michael J. Franklin, Scott Shenker. Resilient Distributed Datasets: A Fault-Tolerant Abstraction 
for In-Memory Cluster Computing, Ion Stoica. NSDI 2012. 

@ Cliff Engle, Antonio Lupher, Reynold Xin, Matei Zaharia, Haoyuan Li, Scott Shenker, Shark: 
Fast Data Analysis Using Coarse-grained Distributed Memory (demo), Ion Stoica. 
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Spark 应 用 程序 开发 过 程 中 最 为 基本 的 概念 ， 也 是 最 为 重要 的 一 类 数据 结构 。RDD 
被 定义 为 只 读 、 分 区 化 的 记录 集合 ， 更 为 通俗 地 讲 ，RDD 是 对 原始 数据 的 进一步 封 
装 ， 封 装 导致 两 个 结果 : 第 一 个 结果 是 数据 访问 权限 被 限制 ， 数 据 只 能 被 读 ， 而 无 
法 被 修改 ， 第 二 个 结果 是 数据 操作 功能 被 强化 ， 使 得 数据 能 够 实现 分 布 式 存储 、 并 
发 处 理 、 自 动容 错 等 诸多 功能 。 

RDD 有 两 类 来 源 : 第 一 类 来 源 是 将 未 被 封装 的 原始 数据 进行 封装 操作 得 到 ， 根 
据 原始 数据 的 存在 形式 ， 又 可 被 进一步 分 成 由 集合 并 行 化 获得 或 从 外 部 数据 集中 获 
得 ， 第 二 类 来 源 则 是 由 其 他 RDD 通 过 转换 操作 获得 ， 由 于 RDD 的 只 读 特 性 ， 内 部 的 
数据 无 法 被 修改 ， 因 此 RDD 内 部 提供 了 一 系列 数据 转换 (Transformation) 操 作 接 口 ， 
这 类 接口 可 返回 新 的 RDD， 而 不 影响 原来 的 RDD 内 容 。 

RDD 的 数据 操作 并 非 在 调用 内 部 接口 的 一 刻 便 开始 计算 ， 而 是 遇 到 要 求 将 数据 
返回 给 驱动 程序 ， 或 者 写 入 到 文件 的 接口 时 ， 才 会 进行 真正 的 计算 ， 我 们 把 这 类 会 
触发 计算 的 操作 称 为 动作 (Action) 操 作 ， 而 这 种 延 时 计算 的 特性 ， 被 称 为 RDD 计 算 的 
惰性 (Lazy)。 

Apache Spark 是 一 套 内 存 计算 框架 ， 其 能 够 将 频繁 使 用 的 中 间 数 据 存储 在 内 存 当 
中 ， 数 据 被 使 用 的 频率 越 高 ， 性 能 提升 越 明 显 。 数 据 的 内 存 化 操作 在 RDD 层 次 上 ， 
体现 为 RDD 的 持久 化 操作 。 除 此 之 外 ，RDD 还 提供 了 类 似 于 持久 化 操作 的 检查 点 机 
制 ， 表 面 看 上 去 与 存储 在 HDFS 的 持久 化 操作 类 似 ， 实 际 使 用 上 又 有 诸多 不 同 。 


1. RDD 内 部 结构 


RDD 是 Apache Spark 中 的 核心 概念 ， 每 个 RDD 都 具有 如 下 属性 或 者 方法 : 
> 用 于 存储 数据 分 区 信息 的 列表 以 及 获取 该 列表 的 函数 ; 


> 一 个 用 于 计算 单个 分 区 中 的 数据 的 函数 ; 

> 一 个 用 于 存储 与 其 他 RDD 依 赖 关 系 的 列表 以 及 获取 该 列表 的 函数 ; 

> 适用 于 该 RDD 的 变换 操作 和 动作 操作 ; 

> 可 选项 ， 即 对 于 数据 类 型 为 键 值 对 的 RDD ， 一 个 用 于 指定 在 Shuffle 过 程 中 


如 何 根据 Key 值 将 数据 分 配给 指定 Reducer 的 分 区 器 ， 以 及 获取 该 分 区 器 的 
函数 ; 

> 可 选项 ， 即 一 个 首选 位 置 函数 ， 返 回 根据 位 置 特 征 确 定 某 特定 分 区 最 优 的 一 
个 或 者 多 个 存储 位 置 的 列表 。 
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Apache Spark 使 用 RDD[T] 表 示 存 储 数据 类 型 为 T 的 RDD， 其 中 T 可 以 是 Scala 语 
言 中 的 基本 类 型 和 自 定义 类 型 (如 case class)， 包 括 键 值 对 类 型 (Kk，V)， 如 果 T 是 (K， 
V)， 则 K 不 允许 为 Array 等 复杂 类 型 。 

RDD 包 括 MappedRDD、HadoopRDD、FilteredRDD 等 ， 对 于 一 个 RDD 执 行 不 同 
的 变换 操作 ， 可 能 会 得 到 不 同类 型 的 RDD。 


2. 分 区 


在 RDD 中 ， 数 据 被 分 割 成 许多 小 片 ， 不 同 的 分 片 对 应 的 数据 可 能 被 隐 式 存储 在 
不 同 的 工作 节点 当中 ， 从 而 实现 计算 的 多 节点 并 行 。 在 RDD 抽 象 表示 层 ， 每 个 小 片 
被 称 为 分 区 (Partition)， 分 区 在 读 取 HDFS 的 时 候 对 应 着 底层 数据 存储 层 的 一 个 处 理 
单元 : 块 (Block)， 在 Stage 之 间 的 时 候 ， 为 按照 reduce 数 进行 切 分 的 数据 分 区 。 


3. 依赖 


RDD 可 以 由 其 他 RDD 通 过 变换 操作 得 到 。 变 换 操 作对 应 两 个 或 者 多 个 RDD 之 间 
的 关系 ， 我 们 称 为 依赖 (Dependency) 关 系 。 提 供 数据 的 一 个 或 者 多 个 RDD 称 为 父 
RDD， 创 建 得 到 的 新 RDD 称 为 子 RDD。 需 要 注意 : 一 个 依赖 中 ， 父 RDD 可 以 存在 多 
个 ， 例 如 union 转 换 操 作 所 对 应 的 依赖 关系 。 

我 们 继续 从 分 区 的 角度 去 理解 依赖 。 如 图 6-2 所 示 ， 空 心虚 线 边 框 矩形 表示 一 个 
RDD， 实 心 矩形 表示 RDD 中 的 各 个 分 区 ， 子 RDD 中 的 分 区 与 父 DD 中 的 分 区 同样 
存在 对 应 关系 ， 根 据 对 应 关系 的 不 同 ， 我 们 可 以 把 依赖 划分 成 两 类 ， 分 别 是 : EK 
赖 (Narrow Dependency) 和 宽 依赖 (Wide Dependency， 内 部 称 之 为 Shuffle 依 赖 : 
Shuffle Dependency)。 窜 依赖 中 ， 子 RDD 中 的 每 个 分 区 都 依赖 于 父 节点 RDD 中 的 少 
量 分 区 ; Shuffle 依赖 中 ， 子 RDD 中 的 每 个 分 区 依赖 于 全 部 的 父 节点 RDD， 这 意味 着 
在 转换 过 程 中 会 存在 Shuffle 操 作 。 图 6-2 中 ， 左 边 的 变换 操作 属于 窄 依赖 ， 右 边 的 变 
换 操作 属于 宽 依 赖 。 

尽管 窄 依赖 中 的 “依赖 少量 分 区 ”很 难 去 定量 描述 ， 在 Apache Spark 内 部 表示 的 
窄 依赖 实际 上 全 部 都 是 一 对 一 依赖 ， 即 子 RDD 的 每 个 分 区 唯一 依赖 于 父 RDD 中 的 一 
个 分 区 ， 因 此 我 们 可 以 把 窄 依赖 简单 理解 成 一 对 一 依赖 。 

需要 注意 的 是 ， 变 换 操 作 相互 之 间 并 非 独立 ， 一 个 变换 操作 会 调用 其 他 简单 
的 变换 操作 ， 因 此 一 个 变换 操作 内 部 不 一 定 仅仅 存在 一 个 依赖 关系 ， 例 如 最 常用 的 
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sc.Textfile 会 包含 HadoopRDD、MappedRDD 两 个 RDD， 分 别 用 于 从 HDFS 上 读 取 数 据 
和 读 取 每 条 记录 中 的 V 字 段 的 Map 操 作 ， 因 为 HDFS 上 的 文件 是 区 ，V] 结 构 的 。 


FER | 宽 依 赖 


map\filter 


groupByKey 


图 6-2 PRB AR 


6.2.2 Spark 架构 


Spark 框 架 本 身 支 持 多 种 部 署 方式 ， 内 部 设计 主要 是 将 调度 、 任 务 管 理 等 进行 抽 
象 ， 将 共性 的 部 分 封装 ， 特 性 化 的 部 分 区 分 对 待 。 其 中 Spark 本 身 Standalone 集 群 是 粗 
粒度 的 资源 调度 ， 即 提交 作业 的 时 候 会 一 次 性 全 部 申请 相应 的 资源 ， 申 请 成 功 之 后 
才 进 行 后 续 程序 的 执行 ， 在 Spark 1.5 之 后 的 版 本 ， 也 支持 在 Standalone 方 式 下 的 动态 
扩展 Executor。 在 yam 的 部 署 方式 下 支持 动态 扩展 Executor， 这 个 是 为 Hive 项 目的 Hive 
On Spark 开 发 的 ， 可 以 指定 最 少 占用 的 Excutor 个 数 ， 在 任务 数 多 的 时 候 ， 自 动 动态 
扩展 资源 申请 ， 任 务 少 的 时 候 归 还 资源 。 

Spark 本 身 包含 Standalone 的 集群 方式 ， 主 要 由 Master 节 点 以 及 多 个 Worker 节 
点 组 成 。Worker 的 高 可 用 由 Master 来 保证 ，Master 本 身 的 单 点 问题 是 通过 启用 两 个 
Master， 通 过 ZooKeeper 来 竞选 当前 的 主 用 ， 也 可 以 单 Master 持 和 久 化 信息 ， 重 启 Master 
时 从 文件 的 恢复 方式 来 达到 Master 高 可 用 。Standalone 集 群 本 身 的 作用 主要 就 是 负责 
CPU、 内 存 两 种 资源 的 分 配 ， 以 及 环境 变量 、 参 数 的 携带 。 真 正 Spark 作 业 的 调度 基 
本 在 各 种 部 署 方式 下 都 是 一 样 的 ， 基 本 见 图 6-3。 
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图 6-3 Apache Spark 在 集群 环境 中 的 运行 框架 

Spark job 的 执行 与 集群 本 身 没 有 关系 ， 集 群 主要 负责 资源 分 配 。Spark 应 用 与 集 
群 沟通 是 通过 SparkContext 来 进行 的 ，Spark 程 序 的 第 一 个 事情 就 是 创建 SparkContext 
对 象 ，SparkContext 创 建 时 候 需 要 提供 一 个 SparkConf 对 象 ，SparkConf 包 含 了 应 用 
程序 的 相关 信息 ， 包 括 应 用 程序 名 、Master 节 点 在 集群 中 的 位 置 、Spark 的 安装 目录 
等 ， 如 果 程 序 中 未 指定 ， 则 从 配置 文件 中 获取 。 

真正 负责 Spark 调 度 的 是 SparkContext 中 的 DAGScheduler 和 TaskScheduler， 如 
6-4 所 示 。RDD 由 SparkContext 生 成 ， 后 续 的 RDD 转 换 中 均 包含 了 该 SparkContext， 
当 遇 到 动作 的 时 候 ， 会 隐 式 地 触发 一 个 任务 提交 ， 通 过 RDD 中 的 SparkContext 找 到 
DAGScheduler 进 行 提 交 。DAGScheduler 会 根据 RDD 的 转换 找到 RDD 之 间 的 依赖 关 
系 ， 从 最 后 一 个 RDD 依 次 往 前 ， 根 据 宽窄 依赖 进行 阶段 (stage) 切 分 。 然 后 就 是 递归 
寻找 没有 缺失 父 依赖 的 阶段 (stage) 进 行 提交 ， 直 到 算 到 最 后 一 个 触发 动作 的 (action) 的 
RDD， 然 后 计算 相关 的 结果 。 


DAGScheduler/ 
RDD 对 象 taskScheduler 


a a 


Executors 


SZ 
rddl. join(rdd2) 
R groupBy(~) ee 
. filter(…) (stage) (tasks), 行 具 ， 读 写 HDFS 块 
-count() 从 最 后 一 个 stage 开 始 提交 ， lea 
建立 DAG 递归 提交 缺失 stage 


图 6-4 Spark 的 任务 调度 过 程 
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为 了 便于 后 续 文 章 的 理解 ， 我 们 介绍 一 些 关 键 术语 的 定义 。 

> 应 用 (Application) 

其 与 Apache Hadoop 中 的 应 用 概念 等 价 ， 是 用 户 希 望 在 集群 中 运行 的 程序 。 如 图 
6-3 所 示 ， 应 用 由 一 个 驱动 程序 和 运行 在 集群 上 的 多 个 执行 器 组 成 。 

> 了 驱动 程序 (Driver Program) 

在 客户 端 (用 户 端 ) 运 行 ， 包 含 应 用 入 口 main 函 数 的 程序 。 用 户 在 main 函 数 中 创建 
SparkContext 对 象 ， 用 于 初始 化 Apache Spark 的 底层 模块 ， 连 接 集群 管理 器 ， 随 后 用 
户 需要 在 main 函 数 中 调用 Apache Spark 数 据 接口 完成 对 数据 的 操纵 。Spark 也 支持 集 
群 方式 的 应 用 提交 ， 这 个 时 候 Driver 是 在 集群 中 运行 的 。 

> 集群 管理 器 (Cluster Manager) 

集群 的 资源 管理 器 负责 为 不 同 的 应 用 分 配 集群 的 计算 节点 、 存 储 空间 等 资源 。 目 
前 Apache Spark 支 持 三 类 集群 管理 器 ， 分 别 是 Standalone、Apache Yam 和 Apache Mesos。 

> 执行 器 (Executor) 

执行 器 是 在 工作 节点 上 专门 为 执行 某 一 应 用 所 启动 的 一 个 进程 ， 该 进程 负责 运 
行 任务 ， 以 及 将 数据 存储 在 内 存 或 者 磁盘 中 。 执 行 器 维护 一 个 线程 池 ， 线 程 池 中 的 
每 个 线程 可 以 执行 一 个 任务 。 每 个 执行 器 所 执行 的 任务 都 归属 于 同一 个 应 用 。 

> 弹性 分 布 式 数据 集 (RDD) 

Apache Spark 程 序 中 的 一 种 抽象 数据 结构 ， 用 于 封装 和 管理 数据 集 ， 并 提供 一 系 
列 数 据 操作 接口 。 

> 任务 (Task) 

任务 是 被 送 到 执行 器 上 的 工作 单元 。 

> 作业 (Job) 

作业 是 由 多 个 Task 组 成 的 并 行 计算 ， 在 Apache Spark 中 ， 作 业 由 对 数据 的 动作 操 
作 触 发 生成 。 

> 阶段 (Stage) 

每 个 作业 会 被 划分 成 多 组 任务 ， 每 组 任务 的 集合 被 称 为 阶段 。 


6.2.3 ”编程 模型 简介 


Apache Spark 的 编程 模型 如 图 6-5 所 示 。 


一 1 一 


第 二 部 分 
大 数据 架构 师 基础 


加 
JDBC Json 
FileSystem 


as 0 foreach (printin) 


图 6-5 Apache Spark 编 程 模型 


开发 人 员 在 编写 Apache Spark 应 用 的 时 候 ， 需 要 提供 一 个 包含 main 函 数 的 驱动 程 
序 ， 以 作为 程序 的 入 口 ， 开 发 人 员 根据 自己 的 需求 ， 在 main 函 数 中 调用 Apache Spark 
提供 的 数据 操纵 接口 ， 利 用 集群 对 数据 执行 并 行 操作 。 

Apache Spark 为 开发 人 员 提 供 了 两 类 抽象 接口 。 第 一 类 抽象 接口 是 RDD，RDD 
是 对 数据 集 的 抽象 封装 ， 开 发 人 员 可 以 通过 RDD 提 供 的 开发 接口 来 访问 和 操纵 数据 

合 ， 而 无 须 了 解数 据 的 存储 介质 (内 存 或 磁盘 )、 文 件 系统 (本 地 文件 系统 、HDFS 
或 Tachyon)、 存 储 节点 (本 地 或 远程 节点 ) 等 诸多 实现 细节 ; 第 二 类 抽象 是 共享 变量 
(Shared Variables)， 通 常情 况 下 ， 一 个 应 用 程序 在 运行 的 时 候 会 被 划分 成 分 布 在 不 同 
执行 器 之 上 的 多 个 任务 ， 从 而 提高 运算 的 速度 ， 每 个 任务 都 会 有 一 份 独立 的 程序 变 
量 拷贝 ， 彼 此 之 间 互 不 干扰 ， 然 而 在 某 些 情况 下 我 们 需要 任务 之 间 相 互 共 享 变量 。 
Apache Spark 提 供 了 两 类 共享 变量 ， 分 别 是 广播 变量 (Broadcast Variable) 和 累加 器 


(Accumulators) 


6.2.4 RDD 操 作 


RDD 提 供 了 两 类 数据 操作 接口 ， 分 别 是 变换 操作 和 动作 操作 ， 变 换 操 作用 于 由 
一 个 已 有 的 RDD， 从 而 得 到 一 个 新 的 RDD， 而 动作 操作 用 于 向 驱动 程序 返回 值 (而 非 
RDD) 或 者 将 值 写 入 到 文件 当中 。 

例如 ，Map 操 作 在 RDD 中 是 一 个 变换 操作 ，Map 变 换 会 让 RDD 中 的 每 一 个 数据 
都 单独 通过 一 个 指定 函数 ， 并 得 到 一 个 新 的 RDD; Reduce 操 作 在 RDD 中 是 一 个 动作 
操作 ，Reduce 动 作 会 使 用 同一 个 指定 函数 让 RDD 中 的 所 有 数据 做 一 次 聚合 ， 把 运算 
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的 结果 返回 。 
RDD 内 部 可 以 封装 任意 类 型 的 数据 ， 但 某 些 操作 只 能 应 用 在 封装 键 值 对 类 型 数 
据 的 RDD 之 上 ， 例 如 变换 操作 reduceByKey、groupByKey 等 。 
表 6-1 展 示 了 RDD 所 提供 的 所 有 变换 操作 及 其 含义 。 
表 6-1_RDD 提 供 的 变换 操作 


变换 操作 含义 
新 RDD 中 的 数据 由 原 RDD 中 的 每 个 数据 通过 函数 
Map(fune) fnc 得 到 
新 RDD 中 的 数据 由 原 RDD 中 每 个 能 使 函数 fnc 返 回 
Pitter(fimo) true 值 的 数据 组 成 
FlatMap(finc) 类 似 于 Map 变 换 ， 但 func 的 返回 值 是 一 个 Seq 对 象 ， 


Seq 中 的 元 素 个 数 可 以 是 0 或 者 多 个 

类 似 于 Map 变 换 ， 但 func 的 输入 不 是 一 个 数据 项 ， 而 
MapPartitions(func) 是 一 个 分 区 ， 若 RDD 内 数据 类 型 为 T， 则 func 必 须 是 
Iterator<T> => Iterator<U> 类 型 

类 似 于 MapPartitions 变 换 ， 但 func 的 数据 还 多 了 


MapPartitionsWithIndex(func) 一 个 分 区 索引 ， 即 func 类 型 是 (Int，Iterator<T> => 
Iterator<U>) 
Sample(withReplacement，fraction， | 对 fraction 中 的 数据 进行 采样 ， 可 以 选择 是 否 要 进行 
seed) 替换 ， 需 要 提供 一 个 随机 数 种 子 
Union(otherDataset) pi otherDataset 中 数据 的 
Tlie aaa 原 RDD 与 RDD otherDataset 中 数据 的 
Distinct([numTasks]) 新 RDD 中 数据 是 原 RDD 中 数据 去 重 的 结果 
原 RDD 中 数据 类 型 为 K，V) 对 ， 新 RDD 中 数据 类 型 
GroupByKey([numTasks]) 为 (K，Iterator(V)) 对 ， 即 将 相同 KK 的 所 有 V 放 到 一 个 
迭代 器 中 
原 RDD 和 新 RDD 数 据 的 类 型 都 为 K，V) 对 ， 让 原 
ReduceByKey(func, [numTasks]) RDD 相 同 K 的 所 有 V 依 次 经 过 函数 func， 得 到 的 最 终 
值 作为 K 的 V 


原 RDD 数 据 的 类 型 为 多，V)， 新 RDD 数 据 的 类 型 为 
(区 ，U)， 类 似 于 groupbyKey 函 数 ， 但 聚合 函数 由 扑 
户 指定 ， 键 值 对 的 值 的 类 型 可 以 与 原 RDD 不 同 

原 RDD 和 新 RDD 数 据 的 类 型 为 (多 ，V) 键 值 对 ， 新 
RDD 的 数据 根据 ascending 的 指定 顺序 或 者 逆序 排序 
原 RDD 数 据 的 类 型 为 (区 ，V)，otherDataset 数 据 的 
Join(otherDataset，[numTasks]) 类 型 为 (K，W)， 对 于 相同 的 K， 返 回 所 有 的 (K， 

(Vv, W)) 


AggregateByKey(zeroValue)(seqOp, 
combOp, [numTasks]) 


SortByKey([ascending], [numTasks]) 


— 93 — 


第 二 部 分 
大 数据 架构 师 基础 


( 续 表 ) 

含义 
原 RDD 数 据 的 类 型 为 (K，V)，otherDataset 数 据 的 
类 型 为 (K，W)， 对 于 相同 的 KK， 返回 所 有 的 (K， 
Tterator<V>, Iterator<W>) 
原 RDD 数 据 的 类 型 为 T，otherDataset 数 据 的 类 型 为 
U， 返 回 所 有 的 (T，U) 
令 原 RDD 中 的 每 个 数据 以 管道 的 方式 依次 通过 命令 
command， 返 回 得 到 的 标准 输出 
Coalesce(numPartitions) 减少 原 RDD 中 分 区 的 数目 至 指定 值 numPartitions 
Repartition(numPartitions) 修改 原 RDD 中 分 区 的 数目 至 指定 值 numPartitions 


表 6-2 展 示 了 RDD 所 提供 的 所 有 动作 操作 及 其 含义 。 
表 6-2 RDD 提 供 的 动作 操作 
动作 操作 含义 
令 原 RDD 中 的 每 个 值 依次 经 过 函数 func，func 的 类 型 


变换 操作 


Cogroup(otherDataset, [numTasks]) 


Catesian(otherDataset) 


Pipe(command, [envValue]) 


Reduce(func) WT, 了 =>T， 返 回 最 终结 果 

Collect() 将 原 RDD 中 的 数据 打包 成 数组 并 返回 

Count() 返回 原 RDD 中 数据 的 个 数 

First() 返回 原 RDD 中 的 第 一 个 数据 项 

Take(n) 返回 原 RDD 中 前 n 个 数据 项 ， 返 回 结果 为 数组 
pi num, 对 原 RDD 中 的 数据 进行 采样 ， 返 回 num 个 数据 项 
SaveAsTextFile(path) 将 原 RDD 中 的 数据 写 入 到 文本 文件 当中 


ee and 将 原 RDD 中 的 数据 写 入 到 序列 文件 当中 
将 原 RDD 中 的 数据 序列 化 并 写 入 到 文件 当中 ， 可 以 
通过 SparkContext.objectFile0 方 法 加 载 

原 RDD 数 据 的 类 型 为 (K，V)， 返 回 hashMap(K， 
Int)， 用 于 统计 K 出 现 的 次 数 


Foreach(func) 对 于 原 RDD 中 的 每 个 数据 执行 函数 funce， 返 回 数组 


SavaAsObjectFile(path)(Java and Scala) 


CountByKey() 


6.25 “惰性 计算 及 持久 化 


一 个 RDD 执 行 变 换 操 作 之 后 ， 数 据 的 计算 是 延迟 的 ， 新 生成 的 RDD 会 记录 变换 
的 相关 信息 ， 包 括 父 RDD 的 编号 、 用 户 指定 函数 等 ， 但 并 不 会 立即 执行 计算 操作 ， 
真正 的 计算 操作 过 程 要 等 到 遇 到 一 个 动作 操作 才 会 执行 ， 变 换 过 程 中 产生 的 中 间 数 
据 在 计算 完毕 后 会 被 丢弃 ， 即 数据 是 非 持久 化 的 。 即 使 对 同一 个 RDD 执 行 相同 的 变 


=— 194° 


第 6 章 
Spark 内 存 计算 框架 


换 操作 ， 数 据 同 样 会 被 重新 计算 ， 所 以 针对 一 个 RDD 有 2 次 以 上 的 动作 (Action) 的 时 
候 ， 最 好 先 在 此 之 前 加 上 cache 语 句 ， 如 果 是 以 多 线程 的 方式 调用 动作 (Action)， 最 好 
在 cache 之 后 加 上 count， 和 避免 多 线程 后 续 执 行 的 不 确定 性 。 
Apache Spatk 采 取 惰 性 计算 机 制 有 其 道理 所 在 。 惰 性 计算 不 同 于 普通 的 运行 方 
式 。 普 通 的 运行 方式 会 遇 到 一 个 转换 立即 执行 一 个 。 这 种 方式 无 法 实现 Pipeline， 也 
无 法 对 整个 任务 的 完整 信息 做 到 阶段 切 分 。 同 时 惰性 计算 还 有 一 个 好 处 就 是 ， 如 果 
一 个 程序 错误 地 写 了 很 多 的 RDD 转 换 ， 但 是 最 终 没 有 动作 (Action) 的 话 ， 是 不 会 被 执 
行 到 的 ， 也 就 是 整个 程序 中 只 有 有 用 的 代码 会 被 提交 到 集群 真正 执行 。 
如 图 6-6 所 示 ， 惰 性 计算 结合 Pipeline 的 好 处 : 
> 节省 了 中 间 RDD 的 存储 空间 ， 因 为 是 直接 从 RDD(X) 算 到 RDD(Z)， 不 需要 存 
储 RDD(Y); 
> 由 于 Pipeline 会 带 来 计算 的 效率 ， 以 及 减少 了 任务 的 个 数 ， 如 果 没有 pipeline 
的 话 ， 则 需要 产生 pXs 个 任务 ， 而 有 了 Pipeline 的 话 ， 则 只 需要 p 个 任务 。 


人 
( ” | 


| 
©) 


xX f0-> Y 20> Z 
图 6-6 ”惰性 计算 和 Pipeline，P- 分 区 ，S- 步 骤 


6.2.6 RDD 持 久 化 


Apache Spark 人 允许 我 们 在 变换 过 程 中 手动 将 某 些 会 被 频繁 使 用 的 RDD 执 行 持久 化 
操作 ， 持 久 化 后 的 数据 可 以 被 存储 在 内 存 、 磁 盘 或 者 Tachyon 当 中 ， 并 选择 数据 是 否 
需要 被 序列 化 ， 从 而 节省 空间 资源 ， 这 个 本 质 就 是 内 存 计 算 的 实际 所 指 。 

通过 调用 RDD 提 供 的 cache 或 persist 函 数 即 可 实现 数据 的 持久 化 ，persist 函 数 需 
要 指定 存储 级 别 StorageLevel，cache 等 价 于 采用 默认 存储 级 别 的 persist 函 数 ，Apache 
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Spark 提 供 的 存储 级 别 及 其 含义 如 表 6-3 所 示 。 
表 6-3 Apache Spark 提供 的 存储 级 别 


存储 级 别 


含义 


MOMOEY ONLY 


MOMOEY AND DISK 


MOMORY_ONLY_SER 


MOMORY_AND DISK SER 


DISK_ONLY 

MOMORY ONLY 2, MOMORY_ 
AND_DISK 2, ete. 
OFF_HEAD(experimental) 


将 RDD 以 未 序列 化 Java 对 象 的 方式 存储 在 JVM 当 中 ， 如 
果 RDD 超 出 了 JVM 内 存 的 限制 ， 那 么 持久 化 过 程 不 会 
发 生 ， 每 次 计算 过 程 依旧 需要 重新 计算 RDD 的 数据 ， 
MOMORY_ONLY 是 默认 的 存储 级 别 

将 RDD 以 未 序列 化 Java 对 象 的 方式 存储 在 JVM 当 中 ， 如 
果 RDD 超 出 了 JVM 内 存 的 限制 ， 那 么 超出 的 部 分 会 被 存 
储 在 磁盘 当中 

与 MOMORY _ ONLY 类 似 ， 只 不 过 数据 被 序列 化 后 才 被 
存储 到 内 存 当 中 ， 相 比 MOMORY ONLY， 其 内 存 利用 
率 更 高 ， 但 读 取 数 据 时 候 需要 消耗 更 多 的 CPU 资源 

与 MOMORY ONLY _SER 类 似 ， 只 不 过 超出 内 存 限制 的 
数据 会 被 存储 到 磁盘 当中 

只 将 RDD 数 据 存储 到 磁盘 当中 


与 上 述 存储 级 别 类 似 ， 但 可 以 指定 数据 被 复制 的 份 数 
将 序列 化 的 RDD 数 据 存储 在 Tachyon 当 中 


RDD 还 有 一 个 检查 点 (Checkpoint) 的 操作 ， 机 制 类 似 于 持久 化 机 制 中 的 
persist(StorageLevel.DISK_ONLY)， 数 据 会 被 存储 在 磁盘 当中 ， 两 者 最 大 的 区 别 在 


于 : 持久 化 机 制 所 存储 的 数据 ， 


在 驱动 程序 运行 结束 之 后 会 被 自动 清除 ;检查 点 机 


制 则 会 将 数据 永久 存储 在 磁盘 当中 ， 如 果 不 手动 删除 ， 数 据 就 会 一 直 存 在 。 换 句 话 
说 ， 检 查 点 机 制 存 储 的 数据 能 够 被 下 一 次 运行 的 应 用 程序 所 使 用 。 检 查 点 的 使 用 与 
持久 化 的 使 用 类 似 ， 只 需 调 用 RDD 的 checkpoint 方 法 即 可 。 


6.3 Spark 核 心 组件 介 绍 


Spark 首 先 为 大 数据 应 用 提供 了 一 个 统一 的 平台 。 从 数据 处 理 层面 看 ， 模 型 可 以 
分 为 批 处 理 、 交 互 式 、 流 处 理 、 非 实时 和 迭代 等 多 种 方式 ， 而 从 大 数据 平台 而 言 ， 已 
有 成 熟 的 Hadoop、Cassandra、Mesos 以 及 其 他 云 的 供应 商 。Spark 整 合 了 主要 的 数据 处 
理 框架 ， 并 能 够 很 好 地 与 目前 主流 的 大 数据 平台 集成 。 图 6-7 展 现 了 Spark 的 这 一 平台 。 
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从 图 6-7 可 以 看 到 ，Spark 总 共 包 含 Spark 组 件 本 身 、Spark SQL. Spark Streaming. 
GraphX、MLlib 等 5 个 重要 组 件 ， 涵 盖 了 从 批 处 理 、SQL 处 理 、 流 式 处 理 、 图 计算 以 
及 机 器 学 习 等 众多 领域 ， 本身 是 计算 框架 ， 自 然 离 不 开 存 储 框架 ，Spark 支 持 主流 的 
HDFS、Amazon S3 等 分 布 式 存 储 ， 也 支持 基于 内 存 的 分 布 式 存储 Tachyon， 同 时 也 
支持 其 他 的 如 Cassandra、HBase、Parquet 等 众多 格式 和 流 式 接 入 ; Spark 支 持 的 部 
署 也 是 多 种 多 样 的 ， 既 可 以 单机 部 署 ， 也 可 以 使 用 自 带 的 集群 方式 (Standalone) 进 
行 部 署 ， 也 可 以 和 大 数据 生态 圈 中 的 其 他 组 件 共 同 使 用 Yarn 来 运行 ， 还 支持 Mesos 
部 署 。 


非 实时 批 处 理 | | Flink 非 实时 迭代 


报表 | | Spark ]| Tez ] | | 机 器 学 习 | | MLib ] ( Mahout | 
定时 任务 | (MR ] 定时 任务 | | GraphX ] [GraphLab 
实时 流 式 [stom] 实时 交互 式 

交互 式 — 探索 性 数据 研究 SparkShell 

异步 消息 Streaming Shell SparkSQL] | Impala 


图 6-7 ”Spark 的 统一 数据 平台 
Spark SQL 能 够 更 加 有 效 地 在 Spark 中 加 载 和 查询 结构 型 数据 ， 同 时 还 支持 对 
JSON 数 据 、parquet 文 件 和 Apache Hive 表 格 的 操作 ， 并 提供 了 更 加 友好 的 Spark API. 
在 Machine Learning 方 面 ， 已 经 包含 了 超过 15 种 算法 ， 包 括 决策 树 、SVD、PCA、 
L-BFGS 等 。 图 6-8 展 现 了 Spark 当 前 的 技术 模型 。 


图 6-8 ”Spark 的 技术 栈 图 


从 图 6-8 可 以 看 到 ，Spark 建 立 在 集群 managers 和 数据 源 上 ， 在 Spark 上 可 以 分 别 
运行 Spark SQL 关系 型 数据 库 操 作 、 机 器 学 习 、 图 像 处 理 和 流 处 理 四 大 应 用 模型 。 各 
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模型 的 具体 内 容 在 下 节 分 别 展开 。 


6.3.1 Spark SQL 


Spark 的 接口 主要 是 用 于 处 理 结构 化 或 者 半 结 构 化 的 数据 ， 实 际 应 用 的 业务 场景 
中 会 存在 很 多 的 结构 化 数据 的 处 理 ， 而 处 理 这 些 数 据 的 时 候 ，Spark SQL 会 带 来 很 大 
的 易 用 性 和 性 能 的 提升 。 

Spark SQL 的 特点 

(1) Spark SQL 可 以 读 取 多 种 的 结构 化 的 数据 源 ， 如 : Json、Hive 表 、Parquet、 
ORC 以 及 通过 JDBC 连 接 其 他 的 关系 数据 库 。 

(2) 访问 方式 即 可 以 通过 应 用 程序 中 通过 SQLContext、HiveContext 来 连接 各 种 数 
据 源 或 者 已 存 的 Hive 表 ， 也 可 以 将 RDD 转 换 成 Dataframe 来 进行 DataFrame 接 口 的 访 
问 ， 也 可 以 通过 DSL 的 方式 访问 ; 同样 也 可 以 启动 一 个 Spark 的 JDBC 服 务 器 ， 提 供 
JDBC 的 访问 方式 。 

(3) 可 以 提供 表 的 Cache 机 制 ， 这 样 针 对 一 个 表 的 多 次 处 理 的 时 候 ， 可 以 非常 高 
效 ， 节 省 了 读 取 部 分 的 时 间 ， 也 是 内 存 计 算 的 亮点 。 

(4) Streaming 中 也 可 以 将 其 中 的 RDD 转 换 成 DataFrame， 进 行 SQL 处 理 ， 这 里 体 
现 了 一 站 式 方案 的 优点 。 

(5) Hive 的 Metastore 支 持 多 版 本 ， 从 0.12.0 到 最 新 的 1.2.1 版 本 ， 通 过 设置 spark.sql. 
hive.metastore.version 来 指定 。 

(6) 其 中 Spark SQL 的 API 使 用 方式 支持 Scala、Java、Python 和 R 这 四 种 不 同 的 方 
式 ， 且 在 这 个 情况 下 ， 即 使 使 用 Python、R 与 Scala、Java 此 类 JVM 原 生 的 方式 ， 性 能 
也 会 比较 接近 ， 因为 都 是 DataFrame 内 部 的 catalyst 统 一 优化 。 

(7) 同时 在 最 新 版 本 1.5.x 中 的 钨 丝 计 划 (Project Tungsten) 大 幅 提 升 了 Spark SQL 
的 性 能 ， 从 最 新 版 本 的 默认 打开 来 看 ， 这 也 意味 着 该 功能 的 成 熟 ， 如 之 前 版 本 的 
Codegen 能 够 带 来 很 大 的 性 能 提升 ， 但 是 亦 存 在 稳定 性 问题 。 而 且 Spark SQL 也 是 
Spark 社 区 后 续 重点 发 展 的 一 个 方向 。 

Spark SQL 在 1.3.0 版 本 中 正式 毕业 ， 意 味 着 可 以 用 于 生产 环境 ， 而 之 前 的 Shark 不 
再 更 新 ， 最 终 版 本 为 0.92， 可 见 未 来 主要 发 展 的 是 Spark SQL. 
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6.3.2 Spark Streaming 


Spark Streaming 项 目 开始 于 2012 年 ， 在 Spark 0.7 版 本 的 时 候 有 Alpha 版 本 的 发 
布 ， 在 2014 年 的 Spark 0.9 版 本 中 正式 毕业 ， 意 味 着 可 以 用 于 生产 环境 。 许 多 大 数据 应 
用 都 需要 实时 地 处 理 大 量 的 流 数据 ，Spark Streaming 在 流 式 处 理 的 优势 在 于 : 
> 可 以 简单 地 进行 水 平 扩展 ; 
可 以 获得 很 好 的 低 延 时 ; 
从 失败 中 高 效 地 恢复 ; 
集成 批 处 理 和 交互 式 流 处 理 ; 
可 以 支持 Scala、Java、Python 等 不 同 的 编程 语言 ; 
流 处 理 、 批 处 理 一 套 编 程 模型 ， 以 区 分 其 他 的 流 处 理 、 批 处 理 不 同 的 编程 模 
型 ， 带 来 实际 开发 的 不 同 代 码 的 成 本 ， 以 及 维护 不 同 组 件 、 学 习 的 成 本 。 
Spark Streaming 区 分 于 Storm 的 针对 每 条 记录 的 处 理 ， 其 定义 了 DStream(Discretized 
Stream) 的 编程 模型 。DStream 代 表 了 一 个 时 间 段 的 流 数据 ， 内 部 实现 为 一 定时 间 的 
RDD 集 合 ， 内 部 的 流程 为 实时 地 接收 流 数据 ， 然 后 按照 时 间 段 将 其 分 割 成 小 的 数据 
合 ， 这 样 内 部 可 以 复 用 Spark 的 引擎 将 其 转换 成 批 处 理 进 行 计算 。DStream 支 持 的 数 
据 源 类 型 广泛 ， 有 Kafka、Flume、HDFS、S3、Kinesis、Twitter、 Matt, ZeroMQ 等 。 
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6.3.3 MLlib 


MLlib 是 构建 在 Spark 上 的 分 布 式 机 器 学 习 库 ，MLlib 开 始 于 2012 年 ， 作 为 MLbase 
项 目的 一 部 分 ， 于 2013 年 9 月 开始 开源 ，MLlib 始 终 作为 Spark 项 目的 一 部 分 ， 首 次 在 
Spark 的 0.8 版 本 发 布 。 得 益 于 Spark 的 内 存 计 算 特 性 ， 使 得 其 性 能 基本 可 以 达到 基于 
磁盘 实现 的 Apache Mahout 的 9 倍 以 上 ， 原 则 上 ， 和 迭代 次 数 越 多 ， 其 两 者 的 性 能 差异 
越 大 。 同 时 MLLib 使 得 机 器 学 习 的 实践 简单 且 可 扩展 。MLLib 包 含 常见 的 学 习 算法 ， 
如 分 类 、 回 归 、 聚 类 、 协 同 过 滤 、 降 维 等 常见 算法 ，MLlib 本 身 可 以 支持 Spark 的 多 
种 语言 ， 如 scala、java、python 等 。 


1. MLib 支 持 的 算法 及 工具 
Mlib 支 持 的 算法 及 工具 具体 如 下 。 
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> 分 类 算法 : 逻辑 回归 (logistic regression)， 线 性 支持 向 量 机 (linear support 
vector machines, SVM), #h# W*t#f(naive Bayes)， 决 策 树 (decision trees), 
线性 回归 : 线性 回归 (linear regression), 2 #t(regression trees). 
聚 类 算法 : k-means. 
优化 算法 : SGD(stochastic gradient descent), L-BFGS(limited-memory BFGS)。 
维度 规约 : 奇异 值 分 解 (singular value decomposition, SVD), 主 成 分 分 析 
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(principal component analysis, PCA). 


2. Pipeline API 


Pipeline 主 要 是 由 spark.ml 包 进行 提供 ， 是 构建 在 DataFrame 上 的 高 阶 API， 主 要 是 
帮助 用 户 创建 、 调 整 实际 的 机 器 ， 学 习 流水 。 


3. Spark 的 集成 


Spark 的 集成 一 站 式 解 决 方案 ， 由 于 构建 在 Spark 上 ， 所 以 底层 可 以 使 用 RDD 的 多 
种 转换 API， 以 简单 地 实现 数据 清洗 和 特征 提取 ; 同时 也 提供 Spark SQL， 使 得 结构 
化 数据 的 清洗 和 预 处 理 极为 简单 ， 同 时 结合 Spark Streaming， 可 以 实现 实时 的 一 些 机 
器 学 习 的 应 用 。 


4. 详细 的 文档 、 活 跃 的 社区 


官方 网 站 提供 了 详细 的 用 户 文档 ， 给 出 了 相应 API 的 介绍 ， 以 及 示例 的 提供 ; 社 
区 比较 活跃 ， 有 活跃 的 邮件 列表 可 以 参看 和 提问 ， 有 相应 的 会 议 进行 技术 交流 。 


6.4 Spark 与 Hadoop 之 间 的 关系 


6.4.1 Spark 与 其 他 计算 框架 的 对 比 


从 图 6-1 中 可 以 看 到 ，Spark 仅 仅 涉及 计算 框架 这 一 层 ， 与 Mapreduce、Tez 相 当 ; 
Spark 可 以 使 用 Hadoop 中 的 HDFS， 也 可 以 提交 任务 到 YARN 中 ， 相 当 于 可 以 替换 
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Hadoop 中 的 MapReduce。 
如 图 6-9 所 示 ，Tez、Flink、Spark 均 衍生 自 Dryad 论 文 ， 均 支持 DAG。Spark 
与 Flink 较 为 类 似 ， 提 供 较 为 高 阶 的 抽象 ， 用 户 不 需要 关心 DAG 的 划分 ，Tez 将 
Mapreduce 中 的 各 个 原 语 进一步 切 分 ， 以 支持 DAG 。 


> 


MapReduce Apache Hadoop 
(0SDT04) 


> 


Dryad,nephele iS Apache Tez 
(EuroSys’07) 

PACTs Apache Flink 
(soce’10,vldb’12) 


RDDs | Apache Spark 
(HotClound’10,nsdi’12) 


图 6-9 计算 框架 衍生 图 


6.4.2 Apache Spark 相 对 于 MR 的 优势 


Spatk 相 对 于 MR 首先 有 速度 上 的 优势 。Databricks 的 测试 图 如 图 6-10 所 示 ， 以 同 
样 的 100T 数 据 进行 Terasort，Spark 在 使 用 MR 的 1/10 节 点 的 情况 下 ， 仅 使 用 了 MRI1/3 
的 时 间 完 成 。 且 作为 Spark 本 身 的 1Pb 的 数据 对 比 来 看 ， 本 身 接近 线性 的 时 间 完 成 。 
这 个 测试 完成 本 身 表明 Apache Spark 已 经 稳定 。 


Hadoop World Record Spark 100 TB * Spark 1 PB 
Data Size 102.5 TB 100 TB 1000 TB 
Elapsed Time 72 mins 23 mins 234 mins 
# Nodes 2100 206 190 
# Cores 50400 6592 6080 
# Reducers 10, 000 29, 000 250, 000 
Rate 1.42 TB/min 4.27 TB/min 4.27 TB/min 
Rate/node 0.67 GB/min 20.7 GB/min 22.5 GB/min 
Sort Benchmark 
Daytona Rules Yes Yes No 
Environment dedicated data center EC2(i2.8xlarge) EC2(i2.8xlarge) 


6-10 Databriks Terasort 测 试 数据 
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如 图 6-11 所 示 ，Spark 本 身 支 持 DAG， 所 以 类 似 于 Hive 这 样 一 个 查询 需要 拆 解 成 
多 个 作业 配合 的 场景 来 说 ， 一 是 更 加 简单 ， 二 是 中 间 的 数据 不 需要 落 到 hdfs， 以 上 两 
点 大 幅 提 升 了 开发 和 运行 效率 。 


HDFS 


HDFS 
图 


Spark 除 了 上 述 两 个 优点 之 外 ， 还 有 一 个 非常 重要 的 优点 就 是 一 站 式 解决 方案 ， 
如 图 6-12 所 示 。 


图 6-11 MapReduce 与 DAG 对 比 


非 实时 批 处 理 | | Flink 


报表 | | Spark Il Tez ] 
定时 任务 | (MR ] 


非 实时 迭代 


机 器 学 习 | (_MLib ] [ Mahout ] 
定时 任务 | (GraphX ] (GraphLab] 


实时 流 式 (Som) 实时 交互 式 
[Zea | 


em 
RR | | steaming Shell |(SparkSQL] {Impala ] 


HDFS HDFS HDFS HDFS HDFS HDFS 
read | ETL | ‘Write | Te | mm Write read | over ite 
® python 
DES ETL | Train |Query 
a F | Scala Interactive 
analysis 
G 
<= Java 


图 6-12 Spark 的 一 站 式 解决 


= 
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拿 机 器 学 习 的 例子 来 说 ， 在 原来 的 情况 下 ， 可 能 先是 在 一 个 作业 中 做 ETL， 然 
后 另外 一 个 作业 做 训练 ， 最 后 由 另外 的 一 个 程序 做 查询 ;但 是 在 使 用 Spark 的 情况 
下 ， 只 需要 Spark 一 个 组 件 ， 可 以 通过 Python、Scala、Java 进 行 应 用 开发 ， 一 次 性 解 
决 问题 ， 同 时 可 以 在 Spark-Shell 中 进行 交互 式 查询 。 同 时 一 站 式 解决 给 人 很 多 的 创造 
空间 ， 如 可 以 使 用 Spark Streaming 从 Kafka 中 接收 数据 ， 数 据 接收 到 之 后 先 使 用 RDD 
的 转换 函数 进行 预 处 理 ， 然 后 再 使 用 SQL 进行 SQL 的 处 理 ， 最 后 使 用 机 器 学 习 进行 处 
理 ， 最 终 写 到 HDFS 持 久 化 。 


6.4.3 SPARK 后 续 的 展望 


从 Spark 自 身 的 特点 来 看 ，Spark 一 直 致 力 于 两 个 方面 : 速度 、 易 用 性 。 

Spark 本 身 基于 Mapreduce 设 计 ，shuffle 是 其 必 不 可 少 的 过 程 ， 也 是 性 能 的 瓶颈 所 
在 ，Spark 社 区 也 一 直 致力 于 这 方面 的 改进 ， 从 原先 的 hash 方 式 变 成 sort 方 式 ， 很 大 地 
提升 了 shuffle 过 程 的 稳定 性 和 速度 ，shuffle 的 传输 方式 从 原先 的 NIO 方 式 改变 成 Netty 
的 ZeroCopy 方 式 ， 也 进一步 地 提升 了 Shuffle 的 传输 效率 ;同时 Project Tungsten( 钨 丝 
计划 ) 也 在 最 新 的 版 本 中 加 入 了 tungsten-sort 的 shuffle 方 式 ， 通 过 直接 操作 二 进 制 数 
据 ， 进 一 步 地 提升 了 shufe 的 性 能 。 同 时 Spark SQL 中 加 入 了 对 于 小 表 Join 的 Broadcast 
优化 ， 减 少 了 不 必要 Stage 的 产生 ， 大 大 地 提升 了 效率 。 后 续 Project Tungsten( 钨 丝 计 
划 ) 的 优化 效果 会 体现 在 后 续 的 1.5、1.6 版 本 中 ， 后 续 的 版 本 同样 会 对 各 个 组 件 进行 性 
能 的 提升 。 

易 用 性 ， 从 最 原始 的 RDD 的 抽象 ， 区 分 于 Mapreduce 对 于 行为 进行 抽象 ，Spark 通 
过 对 于 原始 数据 进行 抽象 约束 ， 使 其 可 以 有 丰富 的 转换 、 动 作 ， 相 对 于 Mapreduce， 
其 极 大 地 简化 了 分 布 式 的 程序 开发 。 同 时 在 Spark 擅 长 的 迭代 式 运算 方面 ， 自 身 提 供 
了 MLLib、GraphX， 也 可 以 很 容易 地 进行 图 计算 、 机 器 学 习 相 关 的 应 用 开发 ， 同 时 
为 了 适应 这 个 领域 ，Spark 同 时 支持 Python 接口 。 同 时 在 流 式 处 理 领 域 ， 提 供 Spark 
Streaming 组 件 ， 基 本 批 处 理 的 代码 可 以 通过 之 前 创建 DStream 的 方式 简单 地 移植 。 同 
时 设计 了 Dataframe 的 接口 ， 在 此 之 上 提供 了 R 语 言 的 接口 ， 为 数据 分 析 及 金融 领域 
相关 人 员 提 供 了 接 入 集群 分 析 的 可 能 。 这 样 将 会 大 大 地 降低 大 数据 使 用 的 门槛 ， 
可 以 预见 鉴于 Spark 本 身 丰 富 的 接口 、 能 力 ， 后 续 肯 定 会 在 多 个 领域 得 到 大 规模 的 
应 用 。 
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6.5 要 点 回顾 


Spatk 是 基于 内 存 计算 的 开源 分 布 式 计算 框架 ，Spark 使 用 高 速 内 存 代 蔡 磁盘 来 存 
储 数据 处 理 过 程 中 产生 的 中 间 数 据 ， 因 此 Spark 在 迭代 式 应 用 上 运行 性 能 提升 十 分 显 
著 。Spark 有 如 下 特点 : 
> Spark 将 中 间 处 理 数据 全 部 放 到 了 内 存 中 ，Spark RDD 人 允许 它 透 明 地 在 内 存 中 
存储 数据 ， 只 在 需要 时 才 持 久 化 到 磁盘 ， 这 种 做 法 大 大 地 减少 了 数据 处 理 过 
程 中 磁盘 的 读 写 ， 大 幅 降 低 了 所 需 时 间 ; 
> Spark 支 持 多 语言 ， 对 开发 者 来 说 易于 使 用 ; 
> Spark 支 持 SQL 查 询 、 流 式 查询 及 复杂 查询 ; 
> Spark 既 可 以 独立 地 运行 ， 也 可 以 运行 在 当下 的 YARN 资 源 管理 框架 上 ， 还 可 
以 读 取 已 有 的 任何 Hadoop 数 据 ， 能 够 与 已 存 的 Hadoop 数 据 整合 ; 
> Spark 有 十 分 活跃 的 开发 者 和 无 限 半 大 的 社区 。 
Spark 总 共 包含 Spark 组 件 本 身 、Spark SQL. Spark Streaming、GraphX、MLlib 等 
5 个 重要 组 件 ，Spark 在 批 处 理 、SQL 处 理 、 流 式 处 理 、 图 行 计算 以 及 机 器 学 习 等 众多 
领域 都 有 应 用 。 
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小 楼 一 夜 听 春雨 ， 深 埠 明 朝 卖 杏 花 。 小 明 带 着 一 帮 兄 弟 埋 头 苦 干 ， 慕 然 回首 ， 
发 现 大 数据 已 经 遍地 开花 ， 在 各 行 各 业 各 种 规模 的 企 事业 单位 都 得 到 了 广泛 的 应 
用 ， 小 明 一 时 感叹 大 数据 时 代 真 的 到 来 了 。 

从 早期 各 企业 试 水 大 数据 时 的 谨慎 和 迟疑 ， 到 大 数据 存储 逐渐 得 到 广泛 的 认 
可 ， 企 业 普遍 将 海量 的 原始 业务 数据 存储 到 大 数据 平台 ， 并 渐渐 地 将 传统 的 ETL、BI 
等 数据 分 析 处 理 类 业务 迁移 到 大 数据 平台 ， 进 而 从 全 量 数据 的 快速 分 析 中 得 到 对 企 
业内 部 运营 和 外 部 竞争 态势 的 实时 、 深 度 洞察 ， 并 最 终 服 务 于 各 种 决策 的 制定 与 业 
务 的 增长 。 

大 数据 分 析 技术 的 普及 给 各 行 各 业 带 来 了 巨大 的 变化 ， 注 入 新 的 活力 的 同时 ， 
也 孕育 着 新 的 深刻 变革 。 小 明 站 在 大 数据 时 代 浪 潮 之 冉 ， 也 深刻 地 感受 到 一 股 新 
的 、 更 具 力量 的 大 数据 分 析 技 术 的 浪潮 正在 积蓄 力量 等 待 着 爆发 。 

小 明 最 近 经 常 听 到 客户 的 首席 信息 官 (CIO)、 首 席 技术 官 (CTO) 们 有 这 样 的 疑 
问 : 大 数据 分 析 技 术 除 了 能 够 应 用 于 企业 内 传统 的 BI 类 分 析 应 用 ， 是 否 可 以 为 企业 
带 来 更 广泛 的 价值 ? 

每 当面 对 这 种 疑问 ， 小 明 都 会 紧 跟 着 问 一 句 : 您 知道 21 世 纪 最 性 感 的 职业 是 
什么 吗 ? 21 世 纪 最 性 感 的 职业 是 数据 科学 家 ， 甚 至 Gartner 都 在 2015 年 创造 了 一 个 新 
词 一 一 “Citizen Data Scientist ”来 表达 对 大 数据 时 代 这 个 极 具 性 感 职 业 的 恒 慢 。 

数据 科学 家 是 这 么 一 群 人 ， 他 们 懂 数 学 、 懂 算法 、 懂 技术 ， 还 了 解 业 务 ， 是 造 
物 主创 造 出 来 解决 企业 业务 与 数据 分 析 问 题 的 完美 人 类 。 他 们 既 能 够 在 对 业务 理解 
的 基础 上 设计 相应 的 数学 模型 进行 问题 抽象 ， 又 能 够 使 用 大 数据 技术 抽取 企业 大 数 
据 中 相关 的 数据 样本 进行 清洗 、 转 换 ， 他 们 还 能 够 使 用 大 数据 平台 实现 相应 的 模型 
算法 对 清洗 、 转 换 后 的 海量 数据 样本 进行 模型 训练 ， 并 最 终 从 海量 数据 中 挖掘 出 隐 
藏 其 中 的 深刻 洞察 。 

而 大 数据 架构 师 将 是 他 们 的 亲密 伙伴 ， 共 同 搭建 起 企业 先进 分 析 应 用 的 平台 ， 
实现 高 级 的 分 析 业 务 。 


加 
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7.1 数据 时 代 


7.1.1 数据 可 获得 性 


大 数据 时 代 首 先是 海量 的 、 多 种 多 样 的 数据 电子 化 的 时 代 。 

在 互联 网 上 ， 企 业 通 过 网 站 宣传 自己 的 产品 吸引 潜在 客户 ， 科 研 机 构 发 表 的 
大 量 研究 成 果 可 供 他 人 参考 和 使 用 ， 新 闻 机 构 每 天 都 在 发 布 最 新 的 新 闻 、 稿 件 供 人 
浏览 。 

社交 网 络 用 户 在 不 断 地 管理 着 自己 的 朋友 圈 和 订阅 ， 通 过 微 博 、 博 客 抒发 着 对 
工作 生活 的 感受 ， 通 过 微 信 分 享 着 日 常 的 生活 和 对 各 种 话题 的 观点 。 

在 无 所 不 在 的 物 联 网 世界 中 ， 庞 大 的 传感器 网 络 中 的 每 个 节点 无 时 无 刻 不 在 默 
默 地 记录 着 世界 各 个 角落 发 生 了 和 发 生 着 的 事情 。 

在 各 式 各 样 的 垂直 领域 内 ， 通 过 各 类 应 用 记录 着 人 们 生活 中 的 点 点 滴 滴 。 如 电 
商 应 用 记录 着 用 户 的 购买 记录 ， 视 频 应 用 保存 着 人 们 的 兴趣 偏好 ， 打 车 和 导航 应 用 
记录 了 人 们 的 出 行 轨迹 。 

在 个 人 终端 和 可 穿戴 设备 蓬勃 发 展 的 当代 社会 ， 人 们 所 处 的 外 部 环境 及 其 所 
言 、 所 行 、 所 见 无 不 被 个 人 设备 所 感知 ， 甚 至 包括 人 体 自身 的 健康 数据 也 在 被 持续 
地 记录 和 分 析 。 

而 在 企业 和 政府 等 机 构 内 部 广泛 部 署 的 统一 通讯 与 协作 系统 、ERP、CRM 等 信 
息 系统 将 组 织 运营 的 方方面面 完整 地 持久 化 到 大 数据 中 心 。 

人 类 生活 与 办 公 环 境 电子 化 、 信 息 化 的 深入 发 展 ， 已 经 、 正 在 并 将 继续 成 为 大 数 
据 时 代 的 巨大 推手 ， 将 人 类 信息 持续 的 汇聚 成 数据 之 湖 (data lake)， 甚 至 数据 的 海洋 。 


7.1.2 ”数据 多 样 性 


大 数据 时 代数 据 来 源 的 丰富 ， 记 录 与 存储 方式 的 不 同 ， 导 致 了 大 数据 内 在 的 数 
据 多 样 性 。 
互联 网 世界 充斥 着 海量 的 文本 信息 ， 成 为 人 类 历史 上 构建 的 最 大 型 、 最 广泛 
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的 巨型 知识 库 ， 而 通信 网 络 和 蓬勃 发 展 的 社交 网 络 忠 实地 记录 着 人 们 交流 沟通 的 点 
滴 ， 反 映 着 人 们 的 社会 关系 ; 在 安全 监控 领域 内 ， 在 日 常 娱 乐 生活 中 ， 在 高 清 卫 星 
数字 成 像 系 统 里 ， 在 各 型 医疗 扫描 与 观测 设备 上 ， 每 时 每 刻 都 在 产生 着 海量 的 、 反 
映 地 理 环境 、 社 会 安全 、 城 市 交通 、 公 众 娱乐 、 个 人 健康 等 各 方面 信息 的 图 像 与 视 
频数 据 ， 在 智能 楼 宇 里 、 在 道路 边 、 在 厂房 中 、 在 机 器 设备 内 、 在 各 式 交通 工具 
上 ， 各 种 传感器 持续 不 断 地 测量 出 一 个 个 的 数字 ， 记 录 着 海量 的 环境 与 设备 信息 。 
在 城市 交通 基础 设施 中 、 在 各 类 交通 工具 上 ， 甚 至 在 移动 通信 和 网络 里 ， 每 天 都 在 记 
录 着 大 众 的 生活 轨迹 。 

文本 、 图 像 、 视 频 、 数 字 、 轨 迹 、 关 系 等 各 种 各 样 的 数据 在 不 断 地 被 产生 和 记 
录 ， 全 方位 反映 着 人 们 过 去 、 当 前 生活 的 同时 ， 也 蕴含 着 对 未 来 人 类 社会 的 无 尽 期 
许 和 丰富 想象 。 


7.1.3 数据 质量 


数据 获取 、 传 输 、 存 储 技术 的 发 展 ， 海 量 人 类 社会 、 生 活 数据 的 全 方位 记录 
激发 了 人 们 对 数据 的 无 限 遐 想 。 社 会 学 家 希望 借助 大 量 人 类 活动 数据 研究 社会 的 变 
迁 ， 科 研 人 员 希 望 使 用 海量 的 实验 观察 结果 分 析 背 后 的 科学 机 制 ， 企 业 希 望 从 用 户 
的 网 络 浏览 与 点 击 行为 中 发 现 新 的 商机 ， 政 府 希 望 从 网 络 与 情 中 获得 公民 的 观点 倾 
向 以 便 科 学 施政 ， 城 市 规划 者 希望 从 海量 的 地 理 、 经 济 、 人 口 与 交通 数据 中 获得 城 
市 规划 的 新 灵感 。 

数据 无 疑 是 大 数据 时 代 最 具 战 略 性 的 核心 资产 ， 拥 有 高 质量 的 数据 是 开展 先进 
的 数据 分 析 挖 掘 数据 价值 的 前 提 与 必要 条 件 ， 数 据 质量 管理 也 是 大 数据 分 析 应 用 取 
得 成 功 的 核心 要 素 。 

数据 质量 管理 (Data Quality Management)， 是 指 对 数据 从 计划 、 获 取 、 存 储 、 共 
享 、 维 护 、 应 用 、 消 亡 生 命 周期 的 每 个 阶段 里 可 能 引发 的 各 类 数据 质量 问题 ， 进 行 
识别 、 度 量 、 监 控 、 预 警 等 一 系列 管理 活动 ， 并 通过 改善 和 提高 组 织 的 管理 水 平 使 
得 数据 质量 获得 进一步 提高 。 

数据 质量 管理 不 仅 指 数据 清洗 与 转换 ， 需 要 从 数据 的 采集 、 处 理 、 传 输 、 存 储 
和 使 用 的 全 生命 周期 ， 保 证 数据 的 完整 性 、 规 范 性 、 一 致 性 、 准 确 性 、 唯 一 性 和 关 
联 性 ， 保 证 数据 中 的 信息 量 ， 提 高 数据 的 可 用 性 以 及 最 终 分 析 结 果 的 可 信 性 。 
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因此 ， 数 据 质量 管理 不 仅 是 ETL 工 具 能 够 解决 的 ， 还 需要 人 员 培 训 、 质 量 监控 
验证 和 确认 等 管理 机 制 和 管理 工具 的 配合 。 


7.2 先进 分 析 


传统 的 企业 内 数据 分 析 主要 在 关系 型 数据 库 ( 或 数据 仓库 ) 基 础 上 进行 ， 其 核心 模 
式 是: 在 对 数据 进行 切片 、 分 组 、 过 滤 等 基础 上 进行 各 种 相对 简单 的 统计 运算 ， 从 
而 提炼 和 浓缩 数据 中 的 信息 。 

而 大 数据 平台 能 够 提供 的 近乎 无 限 的 计算 能 力 ， 无 疑 对 以 复杂 模型 、 高 密度 计 
算 为 代表 的 先进 分 析 提供 了 更 广阔 的 空间 。 


7.2.1 传统 分 析 


传统 的 分 析 受 制 于 计算 机 的 运算 能 力 ， 更 注重 于 数据 规模 的 扩大 ， 因 而 尽量 采 
用 相对 轻 量 级 的 分 析 方 法 。 这 一 点 从 代表 传统 分 析 技 术 的 BI 的 发 展 、 概 念 和 特点 可 
以 比较 清晰 地 看 出 。 

传统 分 析 设 计 的 目标 不 是 最 大 限度 地 提高 系统 的 计算 能 力 ， 以 便 能 够 使 用 复杂 
的 模型 进行 数据 分 析 ， 其 主要 是 以 数据 仓库 为 代表 ， 做 数据 整合 ， 在 关系 型 数据 库 
不 能 面 对 的 数据 规模 上 ， 使 用 OLAP 等 技术 手段 做 多 维 的 简单 统计 分 析 计算 。 

先进 分 析 与 此 相反 ， 先 进 分 析 更 加 重视 对 原始 问题 的 建 模 ， 通 过 复杂 的 模型 构 
建 出 对 原始 问题 抽象 ， 进 而 使 用 大 量 的 业务 数据 样本 对 模型 进行 训练 与 学 习 ， 以 便 
获得 对 业务 内 在 特征 的 深入 理解 。 先 进 分 析 的 一 个 前 提要 求 即 高 计算 量 ， 虽 然 先进 
分 析 能 够 获得 相对 传统 分 析 更 深刻 的 业务 洞察 ， 但 在 大 数据 分 析 平台 出 现 前 ， 在 大 
规模 数据 上 进行 高 密度 计算 始终 存在 核心 障碍 。 

大 数据 技术 的 出 现 带 来 海量 存储 能 力 的 同时 ， 通 过 分 布 式 计算 技术 ， 通 过 大 规 
模 集群 并 行 运算 的 方式 ， 也 带 来 了 近乎 无 限 的 计算 能 力 ， 第 一 次 真切 地 、 高 效 费 比 
地 为 将 以 数据 建 模 和 计算 密集 型 为 基本 特征 的 先进 分 析 引 入 到 企业 ， 为 其 打开 了 方 
便 之 门 。 在 此 背景 下 ， 先 进 数据 分 析 向 各 行 各 业 广 泛 渗透 如 汤 沃 雪 ， 已 是 不 可 逆转 
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的 必然 趋势 。 
从 最 初 孕育 大 数据 技术 的 自然 语言 处 理 领 域 ， 到 预测 分 析 、 深 度 学 习 等 新 领 
域 ， 先 进 分 析 正 在 大 数据 技术 的 保驾 护航 下 开 疆 扩 士 。 


7.2.2 ”自然 语言 处 理 


互联 网 是 孕育 大 数据 技术 的 沃土 ， 互 联网 是 一 个 由 自然 语言 文字) 形式 的 文档 相 
互 链接 构成 的 一 个 庞大 网 络 。 以 海量 文本 文档 的 存储 、 检 索 、 排 序 为 代表 的 搜索 最 
早 催生 了 大 数据 技术 的 萌芽 。 

以 文字 、 句 法 为 基本 特征 的 自然 语言 ， 是 人 类 社会 的 各 民族 先 民 ， 在 亿 万 年 历 
史 长 河中 不 约 而 同 选择 的 一 种 信息 与 知识 表达 、 存 储 与 沟通 方式 。 时 至 今日 ， 自 然 
语言 的 文本 、 语 音 数据 仍然 是 人 类 社会 知识 的 最 重要 载体 。 

我 们 在 网 络 论坛 中 通过 自然 语言 表达 我 们 的 观点 ， 我 们 在 社交 网 络 上 通过 自 
然 语言 传递 我 们 情感 ， 我 们 面对面 或 通过 电话 、 邮 件 、 即 时 通信 工具 与 他 人 交流 沟 
通 ， 我 们 通过 文档 记录 下 日 常 工作 、 生 活 的 方方面面 。 通 过 自然 语言 的 形式 ， 我 们 
表达 了 对 某 个 事件 的 看 法 ， 表 达 了 对 某 个 产品 的 意见 ， 表 达 了 我 们 的 政治 倾向 ， 表 
达 了 我 们 的 希望 的 同时 也 在 陈述 事实 和 传递 知识 。 

因此 自然 语言 形式 的 数据 中 蕴含 着 异常 巨大 的 价值 ， 也 就 不 难 理解 其 为 何 能 够 
成 为 钴 育 大 数据 技术 的 温床 。 恰 恰 是 自然 语言 形式 的 数据 中 蕴含 着 巨大 的 价值 ， 因 
此 对 自然 语言 的 处 理 ， 或 者 说 自然 语言 的 处 理 技术 ， 在 大 数据 分 析 领 域 具有 广泛 的 
需求 ， 如 网 络 上 的 舆情 分 析 ， 产 品 口碑 分 析 ， 企 业内 的 知识 组 织 与 管理 。 


7.2.3 ”预测 分 析 


预测 分 析 是 一 种 使 用 统计 、 机 器 学 习 、 数 据 挖 掘 等 手段 对 结构 化 和 非 结 构 化 数 
据 进 行 分 析 ， 以 预测 未 来 结果 的 技术 。 

传统 的 企业 数据 分 析 方法 重点 强调 从 数据 中 分 析 产 生 结果 的 原因 ， 是 一 种 事后 
的 方式 。 而 预测 分 析 则 提供 企业 一 种 前 摄 (proactive) 的 能 力 ， 能 够 从 历史 数据 中 分 析 
出 潜在 的 模式 ， 进 而 能 够 做 出 事前 的 预测 。 无 疑 ， 预 测 分 析 能 够 给 企业 带 来 传统 数 
据 分 析 无 法 带 来 的 价值 ， 使 得 企业 在 决策 制定 、 产 品 开发 、 营 销 策划 实施 之 前 评估 
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相应 的 结果 ， 进 而 能 够 帮助 企业 做 出 正确 的 选择 。 

预测 分 析 涉及 的 范围 非常 广泛 ， 其 数据 类 型 既 有 非 结 构 化 的 数据 (用 户 在 网 络 上 
的 留言 和 评论 )， 又 有 数值 型 的 用 户 收入 、 年 龄 等 属性 数据 ， 还 可 以 包括 各 种 类 型 的 
标签 等 分 类 数据 ， 甚 至 是 用 户 过 去 一 段 时 间 的 位 置 、 轨 迹 数据 。 预 测 分 析 使 用 的 
算法 也 比较 综合 ， 大 量 的 涉及 概率 的 、 图 的 、 先 代 训练 的 算法 ， 具 有 很 高 的 计算 
密度 。 


7.2.4 深度 学 习 


先进 分 析 领 域 最 近 因 取得 巨大 的 工程 效益 而 引起 关注 的 一 个 前 沿 领 域 即 深度 学 
习 (Deep Learning)。 深 度 学 习 采 用 已 经 沉 站 多 年 的 神经 网 络 模型 结构 ， 最 早 在 图 像 识 
别 任务 上 取得 了 显著 进步 ， 并 逐渐 地 应 用 到 工程 实践 中 取得 了 良好 的 效果 ， 因 受到 
谷歌 、 脸 书 等 大 型 互联 网 巨头 的 追捧 得 到 了 长 足 的 发 展 。 

自 基于 多 层 神经 网 络 的 深度 学 习 兴 起 ， 特 征 学 习 的 观念 已 经 为 学 术 和 工程 界 所 
接受 ， 深 度 学 习 算 法 已 经 成 为 图 像 处 理 领 域 的 主流 算法 ， 并 且 显著 地 提高 了 分 析 精 
度 ， 甚 至 在 某 些 领域 逐渐 达到 甚至 超越 了 人 工分 析 的 精度 。 随 着 深度 学 习 算法 在 实 
际 应 用 中 不 断 认 可 ， 深 度 学 习 也 逐渐 向 在 语音 处 理 、 文 本 分 析 领 域 扩展 ， 并 且 在 模 
拟人 类 智能 的 记忆 性 等 方面 取得 突破 ， 提 出 了 RNN、LSTM 等 能 够 较 好 处 理 序列 数据 
的 新 型 网 络 结构 。 因 而 逐渐 在 语音 处 理 、 文 本 分 析 领 域 ， 再 现 曾 经 在 图 像 处 理 领域 
出 现 的 对 基于 统计 方法 的 逆 袭 。 

深度 学 习 使 用 的 神经 网 络 模型 动 辑 几 十 层 ， 每 层 神经 元 个 数 成 二 上 万 ， 待 训 
练 的 网 络 参数 数量 都 在 千 万 级 以 上 。 为 完成 对 这 类 模型 的 充分 训练 ， 对 训练 样本 的 
数量 要 求 更 是 早期 的 三 层 BP 网 络 训练 所 不 能 比拟 的 。 也 只 有 在 数据 量 异常 充分 的 
今天 ， 才 有 可 能 实现 对 这 类 模型 的 充分 训练 。 另 一 方面 ， 这 类 模型 的 训练 算法 主要 
是 基于 梯度 下 降 的 迭代 式 训 练 算法 ， 在 模型 的 复杂 度 高 ， 而 待 训练 的 网 络 参数 数 以 
千 万 计 的 情况 下 ， 训 练 这 类 模型 所 需要 的 计算 量 也 是 空前 的 。 

当前 主流 的 做 法 是 使 用 GPU 集群 进行 分 布 式 训练 的 方式 ， 以 较 低 的 费用 和 时 间 
成 本 完成 模型 的 训练 。 
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7.3 ”架构 与 平台 


为 应 对 各 种 传统 分 析 和 先进 分 析 需 求 和 不 同 的 应 用 场景 ， 大 数据 社区 付出 了 巨 
大 的 努力 ， 涌 现 出 很 多 优秀 的 架构 和 平台 ， 涵 盖 批 处 理 、 和 迭代 处 理 、 流 处 理 、 交 互 
式 分 析 等 多 种 模式 场景 。 


7.3.1 批 处 理 


批 处 理 是 一 种 常见 的 数据 处 理 模 式 ， 批 处 理 的 模型 比较 简单 ， 输 入 一 批 待 处 理 
的 文件 ， 启 动 处理 过 程 ， 等 待 处 理 结束 后 输出 一 个 分 析 结果 文件 。 批 处 理 模 式 的 输 
入 和 输出 都 是 文件 的 形式 ， 数 据 分 析 启 动 后 用 户 即 无 法 干预 算法 过 程 。 批 处 理 往往 
用 于 分 析 大 的 文件 或 者 大 批量 的 文件 ， 且 分 析 过 程 耗 时 较 长 。 

开源 大 数据 平台 的 鼻祖 Hadoop 最 初 实现 的 分 析 模型 MapReduce 采 用 的 就 是 批 处 
理 模 式 ， 每 个 MapReduce 任 务 即 一 个 批 处 理 过 程 ， 其 输入 输出 都 是 HDFS 文 件 。 

批 处 理应 用 在 企业 应 用 系统 中 也 比较 常见 ， 如 数据 清洗 、 转 换 。Hadoop 
MapReduce 计 算 框 架 在 大 数据 应 用 的 早期 的 一 个 最 重要 的 最 佳 实践 就 是 作为 ETL 框 架 
使 用 。 如 果 清洗 的 原始 数据 是 系统 日 志 的 话 ， 则 可 以 使 用 Flume、Chukwa 等 开源 日 
志 系 统 。 

MapReduce 通 过 Java API 接 口 进行 编程 ， 对 开发 人 员 的 编程 技能 要 求 较 高 ， 限 制 
了 普通 数据 分 析 人 员 的 使 用 。Hadoop 社 区 为 了 推动 该 计算 框架 在 数据 分 析 领 域 的 普 
及 ， 在 MapReduce 基 础 上 进行 了 进一步 的 接口 封装 ， 来 降低 对 大 数据 技术 应 用 的 技能 
要 求 。Apache Hive 通 过 类 SQL 的 接口 提供 类 似 传 统 关系 型 数据 库 上 的 查询 、 统 计 能 
力 ; Apache Pig 通 过 脚本 的 方式 ， 人 允许 分 析 人 员 开 发 一 个 完整 、 灵 活 的 分 析 流 程 。 

了 R 是 一 款 强大 的 开源 统计 分 析 工 具 和 语言 ， 都 是 统计 学 家 专属 的 工具 ， 实 现 了 丰 
富 的 数据 统计 分 析 算 法 。RHadoop 是 一 款 Hadoop 和 R 语 言 相 结 合 的 产物 ， 是 运行 R 语 
言 的 Hadoop 分 布 式 计算 平台 的 简称 ， 人 允许 让 用 户 使 用 R 语 言 进行 编程 的 同时 ， 又 能 利 
用 大 数据 平台 的 强大 存储 与 计算 能 力 。 
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7.3.2 ”和 迭代 处 理 


和 代 处 理 横 式 可 以 看 做 批 处 理 模 式 的 扩展 ， 和 迭代 处 理 是 一 个 组 合 型 的 处 理 模 
式 ， 它 由 一 批 首 尾 相连 的 处 理 过 程 串 行 构成 ， 后 一 个 处 理 过 程 使 用 前 一 个 处 理 过 程 
的 输出 作为 输入 。 作 为 一 种 特例 ， 和 迭代 处 理 中 的 每 个 处 理 过 程 可 以 相同 ， 这 样 就 构 
成 了 一 个 闭环 的 处 理 过程 。 同 时 ， 每 个 处 理 过 程 除了 可 以 使 用 前 一 个 处 理 过 程 的 输 
出 作为 输入 外 ， 也 可 以 使 用 原始 输入 或 之 前 某 个 中 间 过 程 的 输出 作为 输入 。 选 代 处 
理 模式 的 核心 是 数据 在 不 同 处 理 过 程 间 的 重复 使 用 与 共享 。 

先进 分 析 中 有 很 多 机 器 学 习 模型 的 训练 算法 都 满足 迭代 模式 。 以 常用 的 分 类 算 
法 BP 神 经 网 络 和 AdaBoost 为 例 ， 神 经 网 络 的 训练 需要 使 用 同一 份 训练 数据 进行 多 批 
次 的 模型 训练 。 集 成 学 习 方法 如 AdaBoost 也 需要 多 轮训 练 ， 以 获得 多 个 模型 ， 且 需 
要 根据 前 一 个 模型 的 训练 结果 来 调整 训练 数据 集中 各 个 样本 的 权 值 ， 来 作为 后 一 个 
模型 的 训练 输入 数据 。 其 他 如 决策 树 、 逻 辑 回归 等 分 类 模型 的 训练 也 都 满足 迭代 处 
理 的 模式 。 常 用 聚 类 算法 如 Kmeans 也 需要 在 同一 份 数据 集 上 和 迭代 ， 不 断 调整 聚 类 的 
划分 ， 并 最 终 得 到 稳定 的 聚 类 结果 。 很 多 基于 图 的 模型 也 采用 了 和 迭代 处 理 的 模型 ， 
如 谷歌 大 名 易 易 的 PageRank， 就 是 一 种 基于 图 的 、 和 迭代 式 的 节点 重要 性 计算 方法 ， 
类 似 的 还 有 许多 在 社交 网 络 分 析 中 使 用 的 图 算法 ， 如 社区 发 现 算法 等 。 

当前 在 大 数据 领域 风头 正 劲 的 Spark 即 是 一 种 迭代 计算 框架 。 与 Hadoop 中 每 个 
MapReduce 任 务 都 需要 从 硬盘 读 入 数据 进行 分 析 ， 并 在 分 析 完成 后 将 分 析 结果 写 入 硬 
盘 不 同 ，Spark 可 以 将 计算 的 中 间 结 果 保 存在 内 存 中 以 便 后 续 使 用 ， 极 大 地 降低 IO 开 
销 ， 因 此 能 够 带 来 显著 的 性 能 提升 。 在 Hadoop 项 目的 早期 还 有 一 些 在 MapReduce 计 
算 框架 下 实现 机 器 学 习 算 法 的 努力 (著名 的 有 Mahout)， 当 前 这 部 分 工作 则 主要 围绕 着 
Spark 框 架 展 开 ， 即 其 Berkeley Data Analytics Stack(BDAS) 的 两 个 核心 组 件 ，MLlib 和 
MLBase。 此 外 BDAS 也 提供 图 建 模 和 运算 的 组 件 : GraphX。 值 得 一 提 的 是 ， 为 了 吸 
引 广 大 的 数据 分 析 人 员 的 使 用 ，Spark 提 供 了 数据 分 析 社区 流行 的 Python 语言 的 API 
接口 。 

值得 一 提 的 是 ， 在 使 用 大 数据 平台 实现 分 布 式 机 器 学 习 算 法 时 ， 经 常 使 用 基于 
梯度 下 降 的 训练 算法 。 在 这 种 场景 下 ， 模 型 参数 往往 需要 在 各 个 节点 上 使 用 不 同 的 
数据 子 集 评估 其 梯度 方向 ， 进 而 基于 梯度 进行 参数 的 更 新 。 这 时 往往 需要 一 个 参数 
服务 器 (Parameter Server) 来 中 心 化 地 存储 模型 参数 ， 并 且 为 各 个 计算 节点 提供 参数 同 
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步 、 查 询 和 更 新 的 接口 。 

Spark 在 推荐 系统 等 互联 网 应 用 中 有 比较 广泛 的 应 用 ， 其 机 器 学 习 组 件 广泛 地 用 
于 回归 、 分 类 、 排 序 、 协 同 过 滤 等 问题 。GraphX 在 社交 关系 分 析 、 社 区 发 现 、 用 户 
影响 力 、 能 量 传播 、 标 签 传播 等 方向 都 有 成 功 的 应 用 。 


7.3.3 流 处 理 


批 处 理 和 迭代 式 计 算 模 式 都 强调 对 数据 的 批量 处 理 ， 有 明确 的 分 析 开 始 和 结束 
时 间 。 而 实际 应 用 中 还 存在 另外 一 种 处 理 模 式 ， 在 这 种 模式 下 ， 数 据 源源 不 断 地 流 
过 处 理 系 统 ， 系 统 能 够 不 停 地 连续 计算 ， 这 种 计算 模式 即 流 处 理 。 流 处 理 强调 连续 
计算 ， 一 般 还 具有 高 实时 性 、 大 吞吐 量 、 无 状态 的 特点 。 

Apache Storm 和 Spark Streaming 就 是 为 了 满足 流 处 理 的 需求 而 设计 开发 的 流 处 理 
HEAR. Apache Storm 针 对 每 次 传 入 的 一 个 事件 进行 处 理 ， 适 合 实时 性 要 求 都 非常 高 的 
场景 ， 时 延 可 以 做 到 毫秒 级 。Spark Streaming 流 式 计算 则 将 数据 流 分 解 成 一 系列 短小 
的 批 处 理 作业 ， 来 模拟 持续 计算 的 效果 ， 因 此 其 时 延 比 Apache Storm 要 高 ， 一 般 在 秒 
级 。 但 Spark Streaming 构 建 在 Spark 上 ， 能 够 充分 地 利用 Spark 丰 富 的 分 析 功 能 ， 分 析 
灵活 性 上 要 优 于 Apache Storm 的 Topology 模 型 。 

流 处 理 平台 并 非 孤 独 的 ， 在 处 理 过 程 中 经 常 需要 访问 外 部 的 数据 ， 而 流 处 理应 
用 又 一 般 比较 强调 实时 性 要 求 ， 在 这 种 情况 下 ， 流 处 理 平 台 经 常 和 内 存 数据 库 一 起 
配合 搭建 分 析 应 用 。 常 用 的 内 存 数据 库 有 Memcached 和 Redis。 

流 处 理 模 式 中 数据 以 流 的 方式 进入 系统 ， 在 实际 的 应 用 系统 中 一 般 使 用 支持 大 
吞吐 量 的 分 布 式 消息 系统 作为 数据 接 入 手段 。Storm+Kafka 的 组 合 就 是 比较 常见 的 
搭配 。 

需要 注意 的 是 ， 流 处 理 和 复杂 事件 处 理 (Complex Event Processing，CEP) 虽 然 都 
有 流 式 数据 处 理 的 特点 ， 但 CEP 系 统 更 加 强调 事件 间 的 关联 分 析 能 力 。 

流 计算 很 适合 需要 实时 统计 、 分 析 和 实时 决策 的 应 用 场景 ， 如 在 Spark Streaming 
上 运行 自然 语言 处 理 组 件 ， 可 以 实现 对 网 络 熏 情 的 实时 监控 。 基 于 Storm 和 内 存 数据 
库 ， 可 以 实现 网 站 在 线 点 击 率 的 实时 统计 。 
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7.34 交互 式 分 析 


交互 式 分 析 是 一 种 对 分 析 实时 性 要 求 介 于 批 处 理 /迭代 处 理 与 流 处 理 之 间 的 一 种 
模式 ， 与 批 处 理 、 和 迭代 处 理 和 流 处 理 框架 主要 面向 开发 人 员 提 供 编程 API 进 行 开发 不 
同 ， 交 互 式 分 析 模 式 一 般 面向 于 业务 分 析 人 员 ， 提 供 的 是 脚本 语言 ， 甚 至 是 类 SQL 
的 接口 ， 并 且 交 互 式 模式 要 求 提供 分 析 结 果 的 可 视 化 。 

交互 式 分 析 模式 是 一 种 允许 业务 分 析 人 员 在 一 个 统一 的 工具 框架 内 ， 快 速 地 
开发 出 分 析 脚 本 ， 并 且 在 可 容忍 的 时 间 内 得 到 分 析 结 果 ， 并 通过 可 视 化 的 展现 方式 
看 到 结果 的 一 种 分 析 模 式 。 这 种 模式 强调 对 数据 的 探索 ， 鼓 励 分 析 人 员 积 极 提出 假 
设 ， 快 速 设计 分 析 模型 并 得 到 分 析 结 果 ， 然 后 基于 各 种 可 视 化 手段 验证 假设 的 合理 
性 、 正 确 性 ， 并 进一步 地 改进 模型 。 

与 批 处 理 和 迭代 处 理 对 底层 的 抽象 数据 模型 不 做 限制 不 同 ， 交 互 式 分 析 模 式 底 
层 的 抽象 数据 模型 一 般 是 结构 化 或 半 结 构 化 数据 ， 其 数据 的 存储 一 般 使 用 各 种 数据 
库 (主要 是 HBase 等 )， 也 可 以 是 格式 化 比较 好 的 文件 。 

交互 式 分 析 模 式 的 应 用 范围 非常 广泛 ， 其 中 一 类 比较 典型 的 应 用 模式 是 通过 类 
SQL 的 查询 接口 提供 对 数据 的 查询 、 统 计 分 析 ， 如 Spark SQL、Impala 提 供 的 都 是 
SQL 接口 。 类 SQL 的 接口 极 大 地 降低 了 传统 数据 分 析 人 员 进 行 大 数据 分 析 的 难度 ， 使 
得 很 多 传统 的 数据 分 析 应 用 可 以 在 大 数据 分 析 平 台 上 开展 。 

先进 分 析 中 往往 需要 借助 复杂 的 数学 模型 ， 通 过 机 器 学 习 的 算法 对 数据 进行 分 
析 ， 先 进 分 析 应 用 因为 其 复杂 性 往往 需要 将 建 模 和 使 用 模型 两 个 阶段 区 分 开 ， 而 在 
先进 分 析 建 模 阶段 也 常 采 用 交互 式 分 析 。 建 模 阶 段 为 保证 最 终 输出 模型 的 实用 性 ， 
主要 面临 的 问题 包括 特征 工程 、 模 型 选择 。 一 般 来 说 ， 特 征 工程 和 模型 选择 在 此 类 
项 目 中 能 够 占用 数据 分 析 人 员 80% 的 时 间 与 精力 ， 业 务 的 差异 和 数据 的 多 样 性 会 导 
致 在 这 两 个 方面 可 直接 借鉴 的 经 验 较 少 ， 而 更 多 的 是 通过 尝试 、 改 进 、 再 尝试 这 么 
一 种 试验 形式 的 开发 模式 。 如 特征 工程 需要 回答 : 哪些 特征 对 分 析 结 果 没 有 贡献 ， 
哪些 特征 之 间 具 有 强 的 相关 性 ， 如 何 组 合 特征 能 够 更 直接 地 反映 出 其 对 结果 的 影响 
力 ， 哪 类 模型 更 适合 要 解决 的 问题 ， 如 何 调整 模型 的 参数 ， 集 成 学 习 是 否 可 以 进 一 
步 提升 模型 性 能 ， 等 等 。 前 面 提 到 Spark 基 于 内 存 计 算 的 迭代 处 理 框 架 很 适合 进行 机 
器 学 习 应 用 的 开发 ， 新 版 本 的 Spark 中 为 了 进一步 吸引 更 多 的 统计 数据 分 析 人 员 使 用 
Spark 平 台 ， 提 供 了 数据 分 析 社区 所 熟知 R 和 Python 语言 做 数据 分 析 的 常用 抽象 数据 模 
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DataFrame。 


7.4 数据 分 析 流 程 


数据 分 析 挖掘 应 用 的 开发 流程 如 图 7-1 所 示 ， 因 为 数据 分 析 挖 掘 应 用 整个 开发 流 


程 是 一 个 探索 的 过 程 ， 所 以 各 个 过 程 之 间 不 是 严格 分 开 的 。 


定义 问题 


ED ET 
ET 小 


图 7-1 数据 分 析 挖 掘 应 用 设计 的 一 般 流 程 图 


准备 数据 
a 


7.4.1 问题 与 数据 


数据 分 析 挖 掘 应 用 ， 是 数据 驱动 的 应 用 ， 不 同 的 用 户 ， 因 诉求 不 同 ， 观 察 同 样 
的 数据 ， 理 解 也 不 尽 相 同 。 在 浏览 数据 时 ， 建 议 不 断 问 自己 : 用 户 是 谁 ， 分 析 对 象 
是 谁 ， 要 解决 什么 问题 ? 只 有 不 断 地 提醒 自己 ， 才 能 保证 分 析 过 程 始终 有 一 条 清晰 
的 主轴 ， 这 是 在 分 析 传统 应 用 时 非常 不 同 的 地 方 。 传 统 的 应 用 ， 需 要 解决 的 问题 是 
很 清晰 的 ， 已 具备 的 条 件 也 是 清楚 的 ， 缺 少 的 就 是 设计 和 实现 。 

定义 问题 阶段 ( 见 图 7-2)， 不 同 的 问题 ， 需 要 不 同 的 解决 方案 ， 需 要 不 同 的 软 硬 
件 配置 。 壁 如 : 通过 信 令 数据 分 析 手 机 用 户 的 常 驻 点 行为 。 一 个 应 用 是 给 公安 系统 
开放 接口 : 输入 一 个 手机 号 ， 将 指定 用 户 最 近 的 常 驻 点 显示 出 来 。 另 一 个 应 用 是 给 
交通 部 门 开放 接口 ， 根 据 用 户 群 体 的 行为 ， 规 划 道路 设计 。 这 两 类 应 用 ， 从 数据 分 
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析 角 度 观 察 来 看 ， 都 是 常 驻 点 分 析 ， 但 从 具体 的 应 用 观察 ， 系 统 架构 设计 完全 就 不 
是 一 回 事 了 。 


识别 分 析 的 主体 ? 
| 


图 7-2 ”定义 问题 


7.4.2 ”数据 预 处 理 与 模型 选择 和 验证 


解决 相同 的 问题 ， 可 以 有 多 个 模型 ， 不 同 的 模型 ， 对 数据 格式 有 不 同 的 要 求 。 
数据 的 预 处 理 过 程 与 模型 紧密 相关 。 同 样 是 解决 聚 类 问题 的 算法 ， 有 的 算法 能 够 直 
接 处 理 大 、 中 、 小 这 样 的 数据 类 型 ， 有 的 算法 需要 大 中 小 转换 成 0(、1、2 这 样 的 数字 
才能 处 理 。 

选择 一 个 模型 时 ， 最 终 的 分 析 结 果 可 能 并 不 理想 ， 这 时 不 能 轻易 地 否定 掉 这 个 
模型 ， 如 果 数据 预 处 理 不 到 位 ， 好 的 模型 也 会 产生 不 好 的 结果 。 反 过 来 ， 选 错 了 模 
型 ， 数 据 预 处 理 模块 再 怎么 努力 ， 效 果 也 不 会 有 本 质 的 提高 。 对 于 系统 设计 人 员 ， 
除了 知道 不 同 的 分 析 模 型 对 应 解决 的 问题 ， 还 需要 知道 每 个 分 析 模型 的 适用 范围 和 
先决 条 件 。 

数据 预 处 理 过 程 还 有 一 个 误区 ， 原 始 的 数据 总 是 有 残缺 的 和 异常 值 等 现象 存 
在 。 但 从 另 一 个 角度 思考 ， 水 至 清 则 无 鱼 ， 异 常数 据 不 等 于 无 价值 数据 。 异 常数 据 
对 数据 分 析 结 果 肯 定 有 影响 ， 但 如 果 把 异常 数据 都 穿 上 漂亮 的 衣服 ， 那 么 有 可 能 就 
会 将 数据 的 本 来 面目 同样 隐藏 起 来 了 。 对 异常 数据 的 处 理 态度 ， 还 是 与 具体 的 应 用 
有 关 ， 如 果 是 分 析 人 员 的 常 驻 地 点 ， 异 常 值 价值 就 不 大 ， 如 果 是 分 析 信用 卡 诈 骗 的 
应 用 ， 异 常 值 就 是 价值 特别 高 的 数据 。 

数据 预 处 理 ， 从 某 种 意义 说 就 是 一 门 艺术 ， 是 整个 数据 分 析 挖 掘 过 程 中 最 耗 时 
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的 一 个 过 程 。 

选择 了 一 个 模型 ， 效 果 好 不 好 ， 还 需要 对 模型 的 效果 进行 验证 。 模 型 需要 快 
速 地 反馈 结果 。 验 证 模型 的 过 程 ， 是 一 个 反复 的 过 程 ， 期 间 需要 对 不 同 的 参数 进行 
调整 。 如 果 不 能 快速 输出 结果 。 假 如 每 调整 一 个 参数 ， 都 需要 一 天 才能 看 到 最 终 的 
运行 结果 ， 在 系统 设计 过 程 中 ， 这 样 的 速度 是 不 能 接受 的 。 为 了 能 够 快速 地 验证 
模型 ， 需 要 对 数据 进行 抽样 。 抽 样 过 程 可 以 分 为 广度 优先 和 深度 优先 两 种 方式 ， 璧 
如 : 通过 上 网 记录 分 析 用 户 的 行为 习惯 ， 在 选择 和 验证 模型 时 ， 不 可 能 对 全 量 数据 
进行 分 析 。 这 时 ， 可 以 选取 部 分 人 群 进行 深层 次 的 分 析 : 选择 100 个 人 ， 分 析 3 年 的 
上 网 记录 。 也 可 以 选取 全 量 人 员 ， 分 析 最 近 一 个 星期 的 上 网 记录 。 具 体 采取 何 种 方 
式 ， 还 是 与 具体 的 应 用 相关 。 

验证 模型 时 ， 除 了 从 技术 方面 考虑 ， 还 要 考虑 成 本 的 可 行 性 。 成 本 可 分 为 直接 
成 本 和 替代 成 本 。 直 接 成 本 ， 就 是 按照 现在 的 模型 投入 到 生产 环境 中 ， 最 乐观 的 情 
况 下 ， 需 要 多 少 硬件 成 本 和 后 期 维护 成 本 。 影 响 直接 成 本 的 因素 很 多 ， 在 相同 的 模 
型 下 ， 分 析 精 度 是 影响 直接 成 本 的 一 个 重要 因素 。 除 了 直接 成 本 ， 还 要 考虑 葵 代 成 
本 。 什 么 是 替代 成 本 ? 举 个 例子 ， 有 个 数据 分 析 应 用 是 : 分 析 电 信用 户 账单 ， 找 出 
高 价值 用 户 。 开 发 成 本 100W， 硬 件 成 本 200W， 后 期 维护 需要 两 个 工程 师 ， 每 年 成 
本 50W。 对 应 这 样 的 系统 ， 达 到 的 分 析 效 果 ， 很 可 能 雇用 两 个 普通 职员 ， 采 用 普通 
SQL 语句 和 EXCEL 表 格 统计 ， 就 能 把 相同 的 事情 做 了 。 此 种 场景 ， 替 代 成 本 是 很 低 
的 ， 系 统 是 没有 竞争 力 的 。 


7.4.3 “部署 模 型 


选 定 了 模型 ， 下 面 就 是 部 署 模型 了 。 部 署 模型 不 是 简单 地 将 验证 过 的 模型 放 在 
生产 环境 下 运行 。 部 署 模型 ， 是 一 个 完整 的 开发 流程 。 验 证 模型 时 ， 为 了 提高 反馈 
速度 ， 可 以 不 考虑 系统 的 完整 性 、 架 构 、 开 发 语言 、 可 服务 性 等 因素 。 简 单 地 说 ， 
怎么 快 就 怎么 来 。 不 同 应 用 ， 部 署 模型 的 过 程 不 一 样 。 

例 一 : 文本 分 类 器 。 在 验证 模型 阶段 ， 使 用 不 同 的 算法 对 大 量 的 语 料 进行 分 
析 ， 输 出 一 个 模型 ， 然 后 使 用 另外 一 些 语 料 对 这 个 模型 进行 验证 ， 如 果 可 行 ， 将 这 
个 模型 部 署 到 生产 环境 中 。 此 例 中 ， 被 部 署 的 模型 可 以 使 用 模型 验证 阶段 相同 的 技 
术 得 到 。 但 是 使 用 这 个 模型 ， 验 证 和 生产 的 实现 可 能 完全 不 一 样 。 在 验证 阶段 ， 慢 
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慢 对 文本 进行 分 类 问题 不 大 ， 但 在 生产 环境 中 ， 有 大 量 待 分 类 的 文本 需要 处 理 ， 效 
率 、 并 发 、 接 口 方 式 就 需要 综合 考虑 了 。 

例 二 : 通过 分 析 信 令 信息 得 到 用 户 的 常 驻地 。 在 此 应 用 中 ， 验 证 模型 中 的 直接 
产 出 (如 代码 ) 在 生产 环境 中 很 难 复 用 。 模 型 验证 时 ， 可 能 使 用 Python 语言 编写 的 公开 
代码 库 ， 在 实现 时 为 了 效率 ， 可 能 采用 JAVA 在 Hadoop 架 构 上 实现 。 

部 署 模 型 阶段 ， 简 单 理解 就 是 常规 系统 的 开发 过 程 。 


7.5 要 点 回顾 


本 章节 我 们 重点 介绍 了 大 数据 分 析 领 域 涌现 出 的 先进 分 析 需 求 ， 以 及 大 数据 社 
区 为 应 对 这 种 需求 开发 出 来 的 各 种 平台 与 架构 。 

我 们 沿 着 需求 类 型 和 分 析 模 式 两 条 路 线 ， 对 大 数据 分 析 技 术 平 台 与 架构 进行 了 
介绍 ， 涵 盖 了 Apache Hadoop(MapReduce), Spark, Apache Storm、Impala 等 计算 框 
架 和 一 些 扩展 分 析 组 件 ， 如 Apache Hive, Apache Pig、RHadoop、Spark Streaming, 
Spark SQL、 Spark GraphX、Spark MLlib、Spark MLBase 等 。 

针对 业界 典型 的 应 用 场景 ， 我 们 给 出 了 大 数据 平台 与 架构 选择 的 实例 。 
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8.1 中 间 件 层 简介 


在 现 有 的 大 数据 架构 体系 内 ， 用 户 搭建 Hadoop、spark 等 基础 大 数据 组 件 ， 并 
根据 其 接口 定义 开发 应 用 ， 把 应 用 部 署 在 其 上 执行 ， 即 用 户 直接 和 大 数据 的 基础 组 
件 打交道 。 这 样 对 用 户 而 言 大 数据 系统 基本 为 这 些 用 户 私有 ， 用 户 直接 管理 、 维 护 
大 数据 集群 以 及 各 组 件 、 应 用 。 这 种 方式 要 求 用 户 对 大 数据 的 各 种 组 件 了 解 比较 深 
入 ， 对 集群 的 部 署 、 构 成 也 需要 比较 熟悉 ， 并 且 要 及 时 掌握 集群 的 运行 状态 。 简 音 
地 说 ， 目 前 的 方式 对 用 户 的 技术 、 人 力 要 求 比较 高 ， 造 成 使 用 成 本 、 使 用 门槛 相对 
高 晶 。 

另 一 方面 ， 现 有 的 使 用 方式 使 用 户 间 无 隔离 ， 这 对 于 比较 大 的 单位 来 说 不 符合 
其 业务 状态 。 对 于 有 一 定 规模 的 集体 ， 其 内 部 往往 存在 着 业务 上 的 分 离 ， 如 销售 部 
门 主要 收集 销售 、 市 场 方面 的 数据 ， 并 进行 存储 和 分 析 ， 而 行政 、 人 事 等 部 门 则 收 
集 人 力 、 考 勤 、 后 勤 等 数据 ;生产 部 门 关注 的 是 原料 、 生 产 过 程 等 数据 。 不 同业 务 
方向 的 数据 具有 内 聚 性 ， 同 一 类 型 的 数据 其 关联 性 较 强 ， 需 要 经 常 进行 关联 分 析 。 
而 不 同业 务 方向 的 数据 具有 天 然 的 分 离 性 ， 放 在 一 起 并 不 合适 。 

从 数据 安全 和 管理 的 角度 讲 ， 不 同 的 数据 也 往往 需要 不 同 的 部 门 、 人 员 进 行 访 
问 ， 非 本 业务 方向 的 人 员 往 往 是 禁止 访问 本 业务 类 型 数据 的 。 例 如 生产 部 门 的 人 员 
一 般 不 被 允许 访问 销售 数据 ， 反 之 亦 然 。 这 需要 在 大 数据 基础 组 件 之 上 有 一 个 层次 
来 进行 管理 和 控制 。 

在 大 数据 基础 组 件 、 集 群 和 上 层 应 用 间 增 加 一 个 中 间 件 层 可 满足 上 述 的 需求 。 
中 间 件 层 可 实现 对 数据 的 管控 、 隔 离 ， 单 位 可 按 业 务 方向 将 使 用 大 数据 的 人 员 划 分 
为 不 同 的 用 户 群体 ， 各 用 户 群 体 之 间 默认 互相 不 可 见 ， 其 数据 、 应 用 等 同样 默认 互 
不 可 见 。 

大 数据 的 中 间 件 层 也 可 用 来 实现 大 数据 组 件 使 用 接口 的 抽象 ， 对 外 提供 统一 
的 、 可 管理 的 接口 供用 户 使 用 。 
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集群 的 管理 是 大 数据 使 用 中 的 一 个 烦琐 的 工作 。 中 间 件 层 对 业务 用 户 屏蔽 了 集 
群 管理 ， 使 业务 用 户 可 以 只 关注 业务 的 数据 和 处 理 。 中 间 件 层 在 大 数据 系统 中 的 位 
置 参见 图 8-1。 


应 用 、 分 析 层 
中 间 件 层 
( 护 问 接 入 ) (负载 均衡 (访问 控制 ) 
会 || 《次 源 共享 ) (访问 计 费 ) (业务 处 理 ) 
si | | (semis) (Gemmee) C—- ) 
基础 设施 层 
计算 存储 层 


图 8-1 中间 件 层 在 大 数据 系统 中 的 位 置 


8.2 中 间 件 层 产 品 介绍 


8.2.1 中 兴 通 讯 的 ODPP 


1. ODPP 简 介 


中 兴 通 讯 依据 客户 的 需要 以 及 对 市 场 的 研判 ， 提 出 了 大 数据 中 间 件 层 的 实现 系 
统 ODPP(Open Data Processing Platform)。ODPP 运 行 于 大 数据 平台 之 上 ， 承 担 中 间 
件 层 的 一 系列 功能 ， 如 访问 接 入 、 访 问 控制 、 资 源 隔离 、 资 源 共 享 、 计 费 、 作 业 运 
行 、 数 据 传 送 、 大 小 数据 量 的 统一 访问 以 及 平滑 过 渡 等 。 


2. ODPP 架 构 


ODPP 整 体 架构 由 三 层 构 成 ， 分 别 是 client 访 问 层 、 服 务 提供 层 、 基 础 运算 集群 
如 图 8-2 所 示 。 
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Client 访 问 层 是 使 用 者 直接 进行 操作 的 部 分 ， 使 用 者 可 以 通过 ODPP 提 供 的 cli 
工具 、dt 工 具 来 实现 对 ODPP 的 访问 。 如 果 使 用 者 希望 通过 系统 和 ODPP 对 接 来 获取 
ODPP 的 服务 ， 也 可 按 ODPP 的 接口 规范 和 ODPP 的 服务 层 对 接 ， 从 而 实现 对 ODPP 服 
务 的 访问 。 

服务 提供 层 是 ODPP 分 析 请 求 、 执 行 对 应 的 业务 逻辑 处 理 的 部 分 。 此 部 分 首先 对 
请 求 进行 接 入 ， 之 后 分 析 请 求 内 容 ， 根 据 请 求 的 具体 内 容 选 择 相应 的 业务 处 理 机 制 
进行 处 理 ， 然 后 将 处 理 的 结果 返回 给 client 端 。 

服务 处 理 层 是 ODPP 的 主体 部 分 ， 其 包含 了 用 户 管理 、 权 限 管控 、 任 务 调度 、 业 
务 处 理 及 计 费 等 多 种 功能 。 

存储 计算 层 集群 是 底层 的 执行 平台 ， 其 主要 作用 是 数据 的 存储 和 运算 。 


Client 访 问 层 
Ci 工具 DT 工具 外 部 系统 上 层 应 用 


用 户 管理 负载 均衡 
权限 控制 接 入 服务 任务 调度 数据 传送 


元 数据 业务 处 理 
ODPP 服 务 层 访问 计 费 
基础 存储 运算 集群 
Hdfs Hive Spark 
Hbse Yarn 


8-2 ”ODPP 架 构 


3. 基本 概念 


用 户 群 体 ， 指 具有 相同 目标 或 关联 紧密 的 业务 关系 的 多 个 用 户 ， 这 些 用 户 具有 
相同 的 工作 目的 ， 因 此 在 这 些 用 户 间 天 然 地 产生 业务 关联 。 一 个 用 户 群 体内 产生 、 
使 用 的 数据 往往 是 相同 或 类 似 的 ， 并 且 对 数据 的 访问 也 比较 类 似 。 

空间 (space)， 是 ODPP 提 供给 用 户 群体 使 用 的 由 数据 、 用 户 、 权 限 、 作 业 等 组 成 
的 集合 。Space 是 某 一 个 用 户 群 体 在 ODPP 内 进行 操作 等 活动 的 空间 。 和 群体 内 的 用 户 
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可 以 将 数据 上 传 到 此 空间 ， 并 进行 分 析 、 计 算 ， 也 可 以 从 此 空间 下 载 数据 。 

空间 所 有 者 (space owner)， 顾 名 思 义 ， 是 space 的 所 有 者 。Space 由 space owner 创 
建 。Space owner 可 在 空间 内 创建 用 户 ， 并 且 可 对 空间 内 的 资源 访问 权限 进行 分 配 。 
Space owner 也 可 将 空间 内 的 资源 打包 共享 给 其 他 空间 的 人 员 。 

空间 用 户 (space user) 是 某 个 space 内 的 用 户 ，space user 归 属于 此 空间 ， 默 认 只 能 
访问 本 空间 的 资源 。Space user 由 space owner 创 建 。 

ODPP 用 户 是 ODPP 系 统 用 户 的 统称 ，space owner 和 space user 都 属于 ODPP 用 户 。 

资源 包 (resource package)， 是 space 间 用 来 共享 资源 的 基本 单位 。 两 个 space 间 可 
以 通过 资源 包 的 方式 来 共享 数据 。 

ODPP 各 基本 概念 间 的 关系 如 图 8-3 所 示 。 


/ ODPP > 


Space N 
Space 2 
@ Space 1 
Space Owner 
(空间 所 有 者 ) 


Space User Space User 
(空间 用 户 ) (空间 用 户 ) 


File, Table ) Resource Package 
for Share 


Right Control Bill Record 
C Jar & Jobs ) 人 Others... +) 


\ of 


图 8-3 ”ODPP 基 本 概念 示意 图 


4. 功能 
ODPP 作 为 大 数据 中 间 件 层 的 实现 ， 为 使 用 者 提供 资源 隔离 、 访 问 控制 等 多 种 功能 。 
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(1) 访问 接 入 

ODPP 支 持 采 用 基于 http 的 restful 接 口 为 使 用 者 提供 访问 服务 。 使 用 者 按照 ODPP 
接口 定义 提供 访问 参数 ，ODPP 处 理 请 求 并 返回 处 理 结果 。 

ODPP 的 访问 接 入 采用 分 布 式 处 理 ， 通 过 负载 均衡 将 大 量 请 求 分 布 在 不 同 节点 上 
处 理 ， 支 持 大 流量 的 访问 请 求 。 其 还 支持 高 可 靠 性 ， 某 部 分 处 理 节 点 故障 后 ， 不 会 
导致 整 系统 的 服务 中 止 。 访 问 接 入 部 分 的 结构 如 图 8-4 所 示 。 


外 部 系统 
ODPP és 一 
负载 均衡 
Service Service Service 
Process Process Process 


图 8-4 ODPP 访 问 接 入 结构 


(2) 资源 隔离 

ODPP 通 过 sapce 划 分 为 用 户 提供 资源 的 隔离 功能 。Space owner 可 以 在 ODPP 上 开 
辟 空 间 以 供 本 用 户 群 体 使 用 。 本 space 内 的 user 只 能 看 到 本 space 的 资源 ， 不 同 space 内 
的 人 员 感 知 不 到 其 他 space 的 存在 。 

(3) 访问 控制 

ODPP 用 户 访问 space 的 资源 时 ，ODPP 对 访问 进行 控制 ， 只 允许 具有 对 应 权限 的 
用 户 访问 指定 资源 。Space owner 在 创建 space user 后 ， 可 按 资源 对 user 进 行 授权 。 如 
对 某 个 space user 赋 予 检索 某 个 表 的 权限 ， 则 此 用 户 可 检索 此 表 的 数据 。 因 此 在 space 
内 ， 对 数据 的 访问 是 受 控 的 。 

(4) 资源 共享 

ODPP 通 过 空间 对 space 进 行 了 隔离 ， 但 实际 应 用 中 往往 各 用 户 群体 间 不 是 完全 制 
裂 ， 老 死 不 相 往 来 的 。 用 户 群 体 间 也 需要 进行 某 些 数据 的 交流 和 分 享 。 例 如 销售 部 
门 和 生产 部 门 ， 对 于 产品 的 数量 等 信息 需要 分 享 ， 但 生产 部 门 和 销售 部 门 分 属 两 个 
space， 互 相 之 间 数 据 不 可 见 。 这 种 需要 跨 space 共 享 资源 的 情况 可 以 通过 ODPP 的 资 
源 包 来 解决 。 

Space owner 创 建 共享 包 ， 然 后 将 需要 分 享 的 资源 加 入 此 包 ， 并 指定 分 享 的 权 
限 ， 例 如 只 允许 对 方 读 取 此 资源 。 将 需要 分 享 的 资源 增加 完毕 后 ， 可 将 此 包 授权 给 
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其 他 space 的 某 个 用 户 。 授 权 后 ， 被 授权 的 另 一 个 space 的 用 户 可 访问 此 资源 的 数据 。 
Space owner 可 创建 多 个 资源 包 ， 以 满足 不 同 的 资源 分 享 需 求 。 如 果 不 再 需要 分 


享 资源 ， 可 以 删除 资源 包 。 一 个 资源 包 也 可 共享 给 多 个 不 同 的 用 户 。 
Space 间 资源 共享 的 结构 如 图 8-5 所 示 。 


Space A Another space 


ODPP user ODPP user 


8 +6 6 
kage ryt 
Space owner Pee Space user Space owner 


Space user Space user Space user Space user 


图 8-5 资源 共享 

(5) 数据 传送 

使 用 者 在 需要 将 数据 等 信息 传递 到 ODPP 的 space 内 时 ， 可 使 用 ODPP 的 数据 传送 
功能 。ODPP 的 数据 传送 支持 将 使 用 者 的 数据 上 传 到 用 户 的 space 内 ， 也 支持 用 户 从 
space 内 下 载 数据 。 

从 space 内 下 载 数据 时 ， 用 户 需 要 获得 下 载 权限 才能 执行 下 载 过 程 。 没 有 下 载 权 
限 的 用 户 无 法 从 space 下 载 文件 。 这 可 以 防止 space 的 文件 被 下 载 后 不 受 控制 地 传播 。 

ODPP 提 供 数 据 传送 的 接口 供 使 用 者 的 系统 和 ODPP 对 接 ， 以 便 实现 数据 的 传 
送 。 同 时 ODPP 也 提供 了 一 个 数据 传送 工具 DataTransit， 对 于 手工 操作 的 用 户 ， 可 直 
接 通 过 此 工具 和 space 进 行 数据 文件 的 传送 。 

ODPP 的 数据 传送 功能 如 图 8-6 所 示 。 


ODPP 


ODPP Data Transit 
Access Service 


Right Control 


ODPP user 


图 8-6 ”ODPP 数 据 传送 功能 
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5. 大 小 数据 量 的 统一 访问 和 平滑 过 渡 


大 数据 的 应 用 不 是 一 跳 而 就 的 ， 有 一 个 逐步 积累 、 演 化 的 过 程 。 对 于 某 些 应 
用 ， 可 能 还 存在 传统 数据 量 和 大 数据 并 存 的 场景 。 对 于 这 些 场景 ， 单 纯 地 使 用 传统 
应 用 或 者 仅仅 是 大 数据 应 用 都 无 法 很 好 地 满足 用 户 的 需求 ， 要 寻找 一 种 可 以 结合 传 
统 数 据 量 和 大 数据 场景 的 处 理 方式 ， 才 能 比较 好 地 应 对 实际 需求 。 

这 种 需求 大 致 可 分 为 如 下 几 种 情况 。 一 种 是 初始 时 期 数据 量 比较 小 ， 传 统 的 
应 用 即 可 满足 需求 ， 不 需要 建设 大 数据 集群 。 但 经 过 长 时 间 的 积累 ， 数 据 量 逐 步 增 
加 ， 原 有 系统 无 法 很 好 地 处 理 大 量 数据 ， 需 要 向 大 数据 方式 演化 ， 如 图 8-7 所 示 。 这 
种 方式 的 主要 需求 在 于 能 满足 演化 过 程 的 平滑 ， 尽 量 减少 对 上 层 应 用 的 影响 。 


& & 


9" 应 用 
大 数据 量 
传统 场景 数据 量 分 析 访问 
大 数据 集群 


cD 
ee 


图 8-7 数据 量 的 增长 
另 一 种 是 同时 具有 传统 数据 量 场景 和 大 数据 量 场景 ， 根 据 用 户 的 需要 确定 建设 
时 采用 哪 种 方式 ， 如 图 8-8 所 示 。 例 如 同一 个 应 用 ， 对 于 数据 量 、 业 务 量 比较 小 的 客 
户 ， 采 用 传统 方式 建设 成 本 低 ， 也 便于 维护 ; 而 对 于 业务 量 比较 大 的 客户 ， 则 可 采 
用 大 数据 集群 的 方式 建设 ， 以 满足 客户 庞大 的 业务 量 。 在 传统 、 大 数据 两 种 方式 间 
演化 的 可 能 性 比较 小 ， 但 要 求 上 层 应 用 能 同时 在 两 种 底层 数据 技术 上 运行 。 这 可 以 
由 上 层 应 用 来 适 配 ， 也 可 以 由 底层 结构 提供 一 致 的 访问 方式 。 
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各 包 


大 数据 集群 
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业务 量 较 小 的 客户 大 业务 量 的 客户 
系统 建设 方案 系统 建设 方案 
图 8-8 ”新 建 应 用 系统 场景 
第 三 种 方式 同样 是 具有 传统 数据 量 场景 和 大 数据 场景 ， 和 第 二 种 的 区 别 是 需要 
经 常 在 两 种 场景 间 切 换 ， 如 图 8-9 所 示 。 例 如 同一 个 工具 ， 业 务 量 小 的 客户 能 分 析 业 
务 数据 ;业务 量 大 的 客户 时 也 可 以 分 析 大 数据 业务 。 在 这 种 方式 下 ， 上 层 应 用 不 会 
同时 访问 传统 数据 系统 和 大 数据 集群 。 


应 用 


大 数据 集群 


— 
BDy 


对 接 业 务 量 较 小 的 对 接 大 业务 量 的 
客户 系统 客户 系统 
图 8-9 ”上 层 应 用 在 两 种 数据 系统 间 切 换 的 场景 


第 四 种 方式 是 上 层 应 用 会 同时 访问 传统 数据 系统 和 大 数据 集群 ， 两 种 系统 同时 
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使 用 。 

以 上 各 种 场景 都 涉及 两 个 数据 系统 ， 即 传统 的 数据 库 系统 和 大 数据 集群 系统 。 
而 对 于 不 同 的 场景 ， 上 层 应 用 的 业务 逻辑 是 相似 的 甚至 是 相同 的 ， 无 论 是 哪 种 业务 
量 ， 都 是 为 了 实现 对 应 的 业务 而 存在 的 ， 业 务 逻 辑 必然 存在 一 致 性 。 因 此 上 层 应 用 
的 变动 比较 小 ， 尤 其 是 业务 逻辑 部 分 ， 保 持 不 变 。 

这 就 要 求 底层 对 应 用 能 提供 一 致 的 访问 方式 ， 以 便 复 用 已 有 的 应 用 ， 保 持 应 用 
的 稳定 性 ， 从 而 保持 上 层 应 用 对 客户 提供 服务 的 稳定 性 。 

解决 这 个 问题 的 一 种 方式 是 抽象 出 一 个 统一 访问 的 数据 接口 ， 使 上 层 应 用 尽量 
不 感知 底层 的 数据 存储 、 计 算 方式 ， 从 而 提高 应 用 的 独立 性 ， 使 其 可 在 不 同 底层 库 
变更 时 保持 稳定 ， 平 滑 迁 移 ， 如 图 8-10 所 示 的 统一 SQL 接口 系统 。 


中 间 件 层 tt 


大 数据 集群 


—_ 


图 8-10 ”统一 SQL 接口 系统 
上 层 应 用 访问 数据 时 使 用 统一 SQL 接口 ， 对 底层 的 数据 系统 不 敏感 。 底 层 数 据 
从 传统 方式 迁移 到 大 数据 集群 后 ， 上 层 应 用 仍然 可 以 通过 统一 SQL 接口 实现 对 业务 
数据 的 访问 和 分 析 ， 实 现 业务 逻辑 的 稳定 ， 减 少数 据 部 分 迁移 的 成 本 。 
统一 SQL 访问 接口 系统 起 到 了 隔离 上 层 应 用 和 底层 数据 系统 的 作用 ， 是 上 层 应 
用 访问 业务 数据 的 桥梁 ， 也 是 中 间 件 层 中 一 个 重要 的 组 成 部 分 。 
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8.2.2 ”阿里 巴巴 的 ODPS 


1. ODPS 简 介 


阿里 巴巴 的 ODPS 全 称 为 Open Data Processing System, 是 阿里 巴巴 提供 的 面向 大 
数据 的 云 计算 服务 。ODPS 可 支持 结构 化 数据 ， 也 可 支持 半 结 构 化 数据 。 用 户 可 通过 
ODPS 存 储 自己 的 数据 ， 也 可 以 在 ODPS 上 对 所 存储 的 数据 进行 分 析 计算 。ODPS 提 供 
针对 TB/PB 级 数据 、 实 时 性 要 求 不 高 的 分 布 式 处 理 能 力 ， 应 用 于 数据 分 析 、 挖 掘 、 商 
业 智 能 等 领域 。 

ODPS 是 一 个 收费 系统 ， 用 户 使 用 前 需要 开通 阿里 巴巴 的 账号 ， 登 录 阿 里 巴巴 系 
统 后 ， 再 开通 ODPS 服 务 ， 则 可 以 使 用 ODPS 系 统 。 使 用 期 间 ODPS 对 用 户 的 操作 进行 
计 费 ， 其 费用 通过 阿里 巴巴 账号 的 支付 宝 进行 扣除 。 


2. ODPS 主 要 概念 


(1) 项 目 (project) 

项 目 是 阿里 巴巴 ODPS 的 一 个 概念 ， 是 指 对 用 户 来 说 一 组 相关 的 数据 、 算 法 、 资 
源 等 的 集合 体 。 项 目 空间 (Project) 是 ODPS 实 现 多 租户 体系 的 基础 ， 是 用 户 管理 数据 
和 计算 的 基本 单位 ， 也 是 计量 和 计 费 的 主体 。 

所 有 对 象 都 是 属于 某 个 项 目 空间 的 。 一 个 用 户 可 以 同时 拥有 多 个 项 目 空间 的 
权限 。 

(2) 表 (Table) 

所 有 的 数据 都 被 存储 在 表 中 。 表 中 的 列 可 以 是 ODPS 支 持 的 任意 种 数据 类 型 
(Bigint，Double，String，Boolean，Datetime)。ODPS 中 的 各 种 不 同类 型 计算 任务 的 
操作 对 象 (输入 、 输 出 ) 都 是 表 。 用 户 可 以 创建 表 ， 删 除 表 以 及 向 表 中 导入 数据 。 

(3) 任务 (Task) 

任务 是 ODPS 的 基本 计算 单元 。SQL 及 MapReduce 功 能 都 是 通过 任务 (Task) 
完成 的 。 对 于 用 户 提 交 的 大 多 数 任务 ， 特 别 是 计算 型 任务 ， 如 SQL DML 语 句 、 
MapReduce 等 ，ODPS 会 对 其 进行 解析 ， 得 出 任务 的 执行 计划 。 执 行 计划 是 由 具有 依 
赖 关系 的 多 个 执行 阶段 (Stage) 构 成 的 。 
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3. ODPS 架 构 


ODPS 整 体 架构 主要 分 为 三 个 部 分 ， 如 图 8-11 所 示 。 
第 一 部 分 为 ODPS 的 客户 端 ， 主 要 为 ODPS 自 带 的 客户 端 访问 工具 ， 包 含 命 令 行 


终端 和 数据 传输 工具 。 

第 二 部 分 为 ODPS 的 主体 部 分 ， 由 两 个 层次 组 成 。 接 入 层 负责 ODPS 对 外 的 接口 
处 理 ， 接 入 外 部 访问 请 求 。 业 务 处 理 层 则 执行 对 应 的 业务 逻辑 ， 并 回应 请 求 。 

第 三 部 分 是 存储 、 计 算 集群 ， 严 格 地 说 属于 外 部 系统 。ODPS 在 此 集群 之 上 实现 


数据 的 存储 和 计算 。 


ODPS 客 户 端 


(ODPS 自 带 client 工 具 ) (外 部 对 接 系统 ) 
1 


ODPS 服 务 端 


接 入 层 
业务 处 理 层 

C ee) Ce) 
C 上传 F 载 ) ( 执行 ) 


图 8-11 ODPS 架 构 示意 图 


4. ODPS 功 能 和 特性 

(1) 用 户 和 角色 

用 户 身份 : 在 阿里 巴巴 系统 中 使 用 统一 的 验证 机 制 ， 即 “阿里 巴巴 账号 ID+access 
key” 的 方式 。 其 中 access key 是 对 等 加 密 秘 钥 ， 只 有 阿里 巴巴 和 用 户 知道 。 

角色 (Role) 是 一 组 访问 权限 的 集合 。 当 需要 对 一 组 用 户 赋予 相同 的 权限 时 ， 可 以 
使 用 角色 来 授权 。 基 于 角色 的 授权 可 以 大 大 简化 授权 流程 ， 降 低 授权 管理 成 本 。 当 
需要 对 用 户 授 权时 ， 应 当 优先 考虑 是 否 应 该 使 用 角色 来 完成 。 
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项 目 (Project) 被 创建 时 会 自动 创建 一 个 admin 角 色 。 此 角色 可 对 项 目 内 所 有 的 内 
容 进行 访问 ， 并 可 管理 用 户 和 角色 ， 以 及 对 用 户 、 角 色 授权 ， 但 不 能 向 其 他 用 户 传 
播 admin 权 限 ， 只 有 Owner 可 向 其 他 用 户 指定 admin 权 限 。 

(2) SQL 服务 

ODPS 对 外 提供 SQL 服务 ， 客 户 端 可 通过 接口 执行 SQL 语句 。 自 带 的 客户 端 工具 
内 有 对 应 的 命令 。 使 用 者 可 手工 执行 SQL 语句 。 

(3) 数据 上 传 下 载 

ODPS 提 供 的 数据 上 传 下 载 工具 为 dship， 通 过 和 ODPS 的 TUNNEL 服 务 交 互 实现 
数据 的 传递 。 

上 传 数据 举例 ， 

dship upload log.txt test_project.test_table/p1= “bl” , p2= “b2” 

下 载 数 据 举例 ， 

dship download test_project.test_table/pl= “bl” , p2= “b2” log.txt 

(4) 计 费 

ODPS 对 存储 、 处 理 和 数据 下 载 收费 。 

在 存储 方面 ， 存 储 到 ODPS 的 数据 ， 会 按照 其 数据 容量 的 大 小 进行 计 费 ， 计 费 周 
期 是 一 个 小 时 ， 具 体 计 费 公式 为 : 

每 小 时 存储 费用 = 存储 容量 X 存储 价格 
存储 的 费 率 如 表 8-1 所 示 。 
表 8-1 ODPS 存 储 费 率 
计 费 项 价格 

存储 价格 (元 /GB/ 小 时 ) 0.000 8 元 

在 计算 方面 ， 目 前 仅 有 SQL 处 理 。 其 费用 是 按 数据 量 和 计算 复杂 度 收费 的 。 计 
费 公 式 如 下 : 

一 次 SQL 计算 费用 = 计算 输入 数据 量 x SQL 复杂 度 xSQL 价 格 
SQL 计算 的 费 率 如 表 8-2 所 示 。 
表 8-2 ODPS 的 SQL 费 率 
计 费 项 价格 

SQL 价格 (元 /GB) 0.3 元 

数据 下 载 方面 ， 用 户 可 以 通过 阿里 巴巴 提供 的 工具 下 载 数 据 。 费 用 按 下 载 的 数 
据 量 计算 。 
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一 次 外 网 下 载 费 用 = F RAGES x 下载 价格 
外 网 下 载 的 费 率 如 表 8-3 所 示 。 
表 8-3 ”ODPS 的 外 网 下 载 费 率 


计 费 项 价格 
外 网 下 载 价格 (元 /GB) 0.8 元 


其 只 对 外 网 下 载 数据 收费 ， 在 阿里 内 网 是 不 收取 下 载 费用 的 。 


5. ODPS 应 用 场景 


开放 数据 处 理 服务 (ODPS)， 适 用 于 离线 数据 的 处 理 、 分 析 或 挖掘 ， 它 同时 提供 
存储 和 计算 两 种 能 力 ， 支 持 SQL 和 编程 (Map/Reduce 框 架 ) 等 多 种 使 用 方式 ， 不 管 是 海量 数 
据 ， 还 是 有 一 定 规模 的 数据 ， 都 能 使 用 他 进行 数据 的 分 析 和 挖掘 ， 发 挥 数据 的 价值 。 

ODPS 支 持 海量 的 数据 级 别 的 分 析 处 理 ， 但 响应 速度 较 慢 。 其 主要 应 用 于 对 历史 数据 
的 处 理 。 此 类 数据 具有 入 库 后 不 变 的 特点 ， 并 且 往 往 数据 量 极 大 ， 对 分 析 时 间 要 求 不 高 。 

阿里 巴巴 的 ODPS 依 托 于 阿里 巴巴 的 整个 生态 系统 圈 ， 阿 里 巴巴 的 淘宝 、 天 猫 
等 系统 内 的 商业 用 户 的 数据 天 然 地 存储 在 阿里 云 上 ， 并 且 具 有 不 少数 据 量 较 大 的 用 
户 。 这 些 用 户 有 分 析 销 售 数据 并 指导 自己 的 业务 的 需求 。 如 一 个 销售 衣服 的 网 店 需 
要 分 析 客 户 的 构成 、 购 买 习惯 、 偏 好 等 ， 以 指导 自己 的 进货 、 销 售 方式 、 促 销 、 广 
告 等 。 所 以 ODPS 的 用 户 来 源 有 比较 明确 的 途径 。 


8.23 ”亚马逊 的 Aws 
本 节 我 们 介绍 一 下 亚马逊 系统 的 概括 、 架 构 、 功 能 特性 以 及 优 劣 势 。 


1. Aws 简 介 


Aws 是 亚马逊 web 服 务 (Amazon Web Service) 的 简称 ， 是 亚马逊 推广 的 云 服务 的 统 
称 ， 包 含 多 种 类 型 的 服务 和 产品 ， 可 以 为 用 户 提供 计算 、 存 储 、 分 析 、 数 据 库 、 部 
署 、 安 全 管理 以 及 一 些 常用 的 应 用 服务 。 可 以 说 ，Aws 是 亚马逊 一 系列 产品 的 组 合 ， 
用 户 可 以 根据 自己 的 需求 选择 使 用 产品 ， 对 于 某 些 产品 可 以 自己 选择 使 用 的 数量 、 
容量 等 内 容 。 简 单 地 说 ，Aws 是 亚马逊 向 用 户 提供 IT 设施 的 一 种 方式 。 

对 用 户 而 言 ， 使 用 Aws 可 以 省 去 自己 投资 建设 对 应 的 数据 服务 的 成 本 ， 并 且 Aws 
系统 的 维护 也 不 需要 用 户 关心 ， 因 此 长 期 的 维护 成 本 也 可 省 去 。 在 不 需要 的 时 候 ， 
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可 以 选择 关闭 服务 ， 不 需要 再 支付 费用 。 这 对 于 不 少 企业 单位 来 说 可 以 节省 不 少 开 
支 ， 减 少 维护 的 人 力 ， 非 常 具 有 吸引 力 。 

Aws 包 含 的 产品 总 体 上 有 如 图 8-12 所 示 的 几 个 类 别 ， 如 计算 、 存 储 、 数 据 库 、 应 
用 ， 以 及 管理 和 部 署 。 


管理 及 部 署 
Aws 管理 ‘Kmazon Relational - ‘Amazon Simple 
控制 台 Database Service we Notification Service 
(RDS) (SNS) 
存储 


产品 计算 产 
Amazon rae 计算 产品 


CloudWatch Amazon Elastic Amazon Virtual 
Compute Cloud Private Cloud 


‘Ai n $3 (Amazon EC2) (Amazon VPC) 
Aws ( ) 
CloudFormation Amazon Elastic 
Amazon Elastic AWS Storage MapReduce Auto Scaling 
Block Store (EBS) Gateway (Amazon EMR) 
‘Aws Identity 
and Access os ‘ . 
Management | ( ‘Ainacon Gioci = ) C 内 wae 网 络 Elastic Load AWS Direct 
(IAM) (CDN) Balancing Connect 


图 8-12 AWS 结 构 示 意图 


/ 


| 


2. Aws 的 功能 和 特性 


(1) 计算 和 网 络 方面 

亚马逊 提供 包含 Amazon Elastic Compute Cloud(EC2) 的 计算 服务 。 类 似 于 一 个 虚 
拟 机 ， 包 含 一 个 实例 预 配 置 模板 ， 通 常 是 AMI( 亚 马 逊 系统 镜像 )、 实 例 的 配置 和 挂 接 
的 存储 。 存 储 一 般 使 用 亚马逊 的 另 一 个 产品 EBS(Amazon Elastic Store)。 这 几 项 内 容 
共同 组 成 一 个 用 户 使 用 的 虚拟 机 环境 。 

Amazon EMR(Amazon Elastic MapReduce) 是 一 种 计算 服务 ， 为 用 户 提供 计算 海 
量 数据 的 能 力 ， 基 于 Hadoop 的 架构 可 灵活 配置 容量 。 此 服务 在 EC2 上 运行 ， 并 且 还 
需要 Amazon S3 的 产品 进行 支持 。 其 一 般 用 于 离线 计算 ， 如 数据 挖掘 、 海 量 数据 分 
析 、 计 算 密集 型 的 工程 计算 等 。 

Elastic Load Balancing 是 亚马逊 的 负载 均衡 ， 可 以 在 各 个 EC2 实 例 间 分 配 访问 请 
求 ， 同 时 也 可 实现 更 高 的 可 靠 性 。 如 果 出 现实 例 故障 ， 无 法 处 理 业 务 ，ELB 可 不 向 
故障 的 实例 发 送 请 求 ， 直 到 此 实例 恢复 。 

Amazon VPC(Virtual Private Cloud) 为 用 户 提供 逻辑 上 私有 的 网 络 ， 以 满足 用 户 对 
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组 网 的 定制 化 需求 。 用 户 可 设置 多 种 参数 ， 如 人 P、 子 网 、 网 关 等 。 

(2) 存储 方面 

亚马逊 同样 提供 多 种 用 于 不 同 场景 的 存储 服务 。 

其 中 ，Amazon S3 是 一 个 提供 web 方 式 访问 接口 的 存储 服务 ， 为 用 户 提供 廉价 的 
存储 方式 ， 具 有 很 好 的 可 扩展 性 和 可 靠 性 。 海 量 的 数据 可 以 存放 在 S3 上 ， 以 供 分 析 
计算 等 后 续 服务 使 用 。 

jf? Amazon EBS(Amazon Elastic Block store) 则 提供 块 存储 服务 ， 顾 名 思 义 ， 是 类 
似 于 本 地 磁盘 方式 的 块 存储 。 但 EBS 通 过 网 络 接口 方式 访问 ， 可 以 与 EC2 搭 配 ， 供 其 
存储 数据 。 在 EC2 中 ， 其 可 作为 一 个 块 设备 使 用 ， 与 访问 本 地 磁盘 类 似 。 

Amazon Glacier 则 是 用 于 归档 、 备 份 方面 的 存储 服务 ， 它 的 使 用 成 本 较 低 ， 但 访 
问 的 性 能 也 不 如 其 他 几 个 高 。 其 主要 用 于 存储 不 经 常 使 用 的 数据 ， 同 样 可 根据 需求 
调整 容量 ， 以 适合 用 户 的 数据 量 。 

AWS Storage Gateway 则 更 像 是 一 个 应 用 ， 为 用 户 提供 一 种 本 地 数据 和 Aws 存 储 
交互 的 便捷 方式 。 它 会 将 数据 存储 到 S3 或 者 Glacier 上 ， 用 户 需要 时 可 以 从 Aws 上 获 
取 。 为 提高 效率 ， 在 本 地 也 可 缓存 一 些 数据 。 

(3) 数据 库 方面 

亚马逊 主要 提供 了 DynamoDB、Amazon Elastic Cache 以 及 Amazon Relational 
Database Service 几 种 数据 库 。 

其 中 ，Dynamo DB 是 一 种 NoSQL 数 据 库 ， 亚 马 逊 宣称 数据 存放 在 SSD 上 ， 提 供 
极 高 的 可 用 性 和 耐久 性 。 

而 Amazon Elastic Cache 则 是 基于 内 存 的 缓存 服务 。 其 提供 高 速度 的 访问 性 能 。 
内 部 引擎 支持 MemCached 和 Redis。 

Amazon RDS(Relational Database Service) 则 是 提供 关系 数据 库 的 一 种 服务 ， 用 户 
需要 使 用 关系 库 时 ， 则 可 选择 此 种 服务 。 鉴 于 关系 库 应 用 的 广泛 性 ， 这 项 服务 对 于 
保留 并 使 用 用 户 的 现 有 代码 是 有 力 的 支持 。 

除了 基本 的 计算 、 存 储 和 数据 库 服 务 ，Aws 还 提供 了 一 些 常用 的 应 用 层 服 务 ， 包 
含 Amazon SQS、Amazon SNS 以 及 Amazon SWF. 

Amazon SQS(Amazon Simple Queue Service) 是 一 个 队列 服务 ， 可 扩展 ， 提 供 高 可 
靠 性 。 其 主要 用 于 跨 节 点 、 跨 进程 的 数据 传送 。 

与 SQS 对 应 ，Amazon SNS(Amazon Simple Notification Service) 是 一 种 订阅 、 通 知 
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方式 的 消息 机 制 ， 可 以 说 是 SQS 共 同 组 成 了 消息 队列 的 两 种 应 用 模式 。 但 SNS 相 比 传 
统 的 消息 队列 提供 了 更 多 的 功能 ， 如 可 通过 客户 指定 的 方式 发 送 通知 ， 例 如 邮件 、 
SMS 等 。 这 使 其 实用 性 更 好 。 

Amazon SWF(Amazon Simple Work Flow) 则 是 一 个 简单 的 工作 流产 品 ， 使 用 户 可 
以 定制 应 用 程序 的 执行 流程 ， 更 好 地 协调 各 应 用 间 的 步骤 。 

同时 Aws 也 提供 了 一 些 部 署 、 管 理 方面 的 工具 ， 以 提供 更 好 的 易 用 性 。 


8.3 中 间 件 层 的 应 用 


8.3.1 数据 隔离 


本 节 介 绍 中 间 件 层 对 数据 的 隔离 ， 以 及 与 隐私 相关 的 屏蔽 。 

在 大 数据 的 实际 应 用 中 ， 用 户 往往 面临 一 个 问题 ， 其 建设 的 大 数据 平台 容量 很 
大 ， 人 性 能 也 很 高 ， 能 容纳 其 产生 的 数据 ， 但 是 数据 都 混杂 在 一 起 ， 没 有 分 隔 。 如 图 
8-13 所 示 ， 单 位 或 用 户 群 体 的 所 有 人 都 向 同一 个 地 方 堆放 数据 ， 并 读 取 这 些 数据 。 就 
像 建 设 了 一 个 超大 房间 的 库房 ， 所 有 货物 都 堆放 在 一 个 房间 内 ， 无 论 是 日 用 的 、 办 
公 的 ， 甚 至 是 危险 的 。 

而 对 于 用 户 来 说 ， 其 内 部 往往 是 有 群体 划分 的 。 如 一 个 单位 内 不 同 的 部 门 负责 
不 同 的 业务 。 销 售 部 门 会 产生 销售 数据 ， 并 且 其 最 关注 的 也 是 销售 数据 。 人 力 资源 
部 门 关 心 的 是 人 事 数据 ， 而 对 销售 产品 类 型 、 销 售 量 等 并 不 关注 。 无 论 何 种 单位 ， 
这 种 群体 划分 是 天 然 的 ， 并 且 也 是 必然 的 。 各 群体 间 业 务 方 向 不 同 ， 从 而 其 产生 的 
数据 也 不 同 ， 对 使 用 数据 的 影响 则 更 大 。 而 且 不 同业 务 群体 间 的 数据 往往 是 不 便 暴 
露 给 其 他 群体 的 。 如 销售 的 合同 价格 等 ， 属 于 机 密 的 数据 ， 需 要 把 这 些 数据 和 其 他 
用 户 群 体 隔 离开 。 

大 数据 的 基础 组 件 侧重 于 完成 数据 的 存储 和 运算 ， 数 据 的 隔离 等 并 非 其 重点 。 
而 上 层 的 应 用 则 更 关注 数据 的 使 用 和 业务 逻辑 。 对 于 缺失 的 数据 隔离 功能 ， 可 以 由 
中 间 件 层 来 承担 。 在 大 数据 基础 组 件 上 为 上 层 应 用 提供 数据 的 隔离 ， 也 正 是 中 间 件 
层 作 为 基础 组 件 平台 和 上 层 应 用 间 的 桥梁 。 


= — 


第 二 部 分 


大 数据 架构 师 基础 
4, 
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础 组 件 系统 
图 8-13 无 中 间 件 层 的 大 数据 基础 组 件 系统 
如 图 8-14 所 示 ， 通 过 中 间 件 层 的 隔离 ， 各 用 户 群 体 拥有 各 自 独立 的 空间 ， 在 此 
空间 中 存放 本 群体 产生 的 数据 ， 并 对 本 群体 的 数据 进行 读 取 、 分 析 。 


销售 人 员 
销售 业务 空间 


使 用 中 间 件 层 
的 大 数据 系统 


库房 管理 
人 员 
图 8-14 ”使 用 中 间 件 层 的 大 数据 系统 


对 于 底层 大 数据 基础 组 件 平台 ， 则 可 以 公用 ， 以 节省 建设 、 维 护 成 本 ， 并 且 提 
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供 更 强大 的 性 能 和 更 高 的 可 靠 性 。 


8.3.2 访问 计 费 


大 数据 集群 系统 的 建设 成 本 往往 比较 高 晶 ， 还 拥有 较 耗 费 人 力 的 运行 维护 ， 这 
些 都 是 大 数据 系统 的 成 本 。 数 据 的 存储 以 及 数据 的 计算 、 传 输 都 需要 消耗 集群 的 各 
种 资源 。 因 此 对 数据 的 访问 在 某 些 情况 下 需要 进行 计 费 ， 例 如 单位 内 部 各 部 门 间 的 
结算 ， 或 者 单位 间 的 费用 占 比 统计 ， 或 者 单位 和 个 人 间 的 费用 等 。 

具体 的 计 费 费 率 和 方式 和 客户 的 实际 情况 关联 紧密 ， 各 客户 间 差 别 也 比较 大 ， 
所 以 作为 一 个 中 间 件 层 的 功能 ， 访 问 计 费 提供 的 是 一 个 通用 的 计 费 数据 ， 即 提供 访 
问 的 基础 数据 。 例 如 访问 的 时 间 ， 访 问 者 的 用 户 名 称 ， 本 次 访问 的 数据 量 ， 以 及 和 
计算 相关 的 一 些 数据 ， 如 复杂 度 等 。 

访问 计 费 在 获取 到 这 些 基 础 数据 后 ， 可 存放 起 来 。 客 户 如 果 需 要 结算 费用 ， 会 
再 建设 计 费 系统 。 计 费 系统 读 取 访问 计 费 输出 的 数据 ， 并 根据 自己 制定 的 计 费 规则 
计算 费用 ， 进 行 结算 。 中 间 件 层 的 计 费 结构 如 图 8-15 所 示 。 


8 客户 的 计 费 系 统 
中 间 层 用 户 
| 


STE | {me 
数据 集 


-15 中间 


9 


83.3 ”中 间 层 在 应 用 中 的 必要 性 


g 


的 访问 计 费 示意 图 


中 间 层 在 大 数据 的 体系 架构 中 处 于 应 用 和 底层 组 件 的 桥梁 位 置 。 如 果 在 大 数据 
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的 应 用 中 缺少 了 中 间 层 ， 则 会 缺少 对 底层 集群 服务 API 的 抽象 和 封装 ， 也 无 法 很 好 地 
对 数据 进行 封闭 和 保护 。 在 实际 应 用 中 ， 部 署 中 间 件 可 以 使 大 数据 系统 成 为 一 个 相 
对 独立 的 生态 系统 ， 对 内 部 数据 的 访问 进行 管控 ， 对 外 提供 统一 的 访问 机 制 ， 从 而 
作为 一 个 较 完善 的 系统 对 外 部 提供 服务 。 


8.4 中 间 件 层 的 发 展 


8.4.1 数据 交易 


数据 本 身 不 仅仅 是 用 来 存储 和 展示 的 ， 其 自身 也 具有 价值 。 在 以 前 尚未 进入 信 
息 化 社会 的 时 代 ， 社 会 能 收集 的 数据 量 比较 小 ， 也 没有 一 种 强大 的 方法 可 以 收集 、 
存储 、 分 析 大 量 的 数据 。 而 现在 ， 得 益 于 整个 社会 的 信息 化 程度 的 提高 ， 我 们 能 有 
更 多 的 设备 来 收集 人 类 活动 产生 的 数据 ， 并 将 其 存储 ， 进 行 分 析 ， 数 据 的 价值 也 就 
逐步 地 体现 出 来 了 。 可 以 说 ， 如 今 是 数据 价值 得 以 展现 的 一 个 时 期 。 

对 于 大 数据 的 持 有 者 ， 其 在 满足 自身 对 这 些 数据 的 分 析 需 求 之 后 ， 这 些 数据 并 
非 就 被 充分 利用 了 ， 也 许 有 其 他 用 途 。 这 些 外 部 的 数据 需求 者 要 得 到 所 需 的 数据 ， 
在 现 阶 段 是 比较 困难 的 。 因 为 没有 一 个 良好 的 渠道 提供 给 供需 双方 。 中 间 件 层 可 以 
承担 起 这 样 的 功能 ， 对 数据 交易 进行 支持 。 

对 于 中 间 件 层 ， 可 以 考虑 提供 一 种 数据 交易 的 机 制 ， 能 在 此 之 上 快速 搭建 起 数 
据 交 易 系 统 ， 给 供需 双方 提供 一 个 可 以 展示 、 交 流 、 交 易 的 通道 。 数 据 交 易 包含 的 
主要 功能 如 图 8-16 所 示 ， 需 要 包含 几 个 基本 的 功能 ， 首 先是 供给 方 数据 的 展示 ， 或 
者 需求 方 需求 的 展示 ， 这 包含 数据 条 目的 展示 和 检索 ， 需 求 条 目的 展示 和 检索 。 同 
时 提供 数据 的 存储 ， 为 双方 提供 存储 数据 的 能 力 。 其 还 需要 提供 数据 交易 的 一 致 接 
口 ， 提 供 方 通过 此 接口 提供 数据 ， 需 求 方 也 通过 此 接口 获取 数据 。 另 一 个 必 不 可 少 
的 功能 就 是 计 费 ， 需 要 提供 如 数据 名 称 、 交 易 的 数据 量 等 信息 。 一 个 费用 结算 接口 
也 是 必 不 可 少 的 ， 以 供 后 续 的 费用 结算 系统 使 用 。 
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十 天 [i it) 一 | 需求 发 布 | 

一 一 >| 数据 发 布 BEAL! 数据 浏览 | 
数据 提供 者 Mm, 

扣 款 接口 上 办 
| + ebm 
数据 上 伟 ek saat 
一 数据 存储 
图 8-16 ”数据 交易 


基于 大 数据 的 数据 交易 是 充分 利用 数据 价值 的 一 种 很 好 的 途径 ， 也 是 大 数据 的 
拥有 者 获取 新 的 价值 的 有 效 方法 ， 有 望 获得 快速 的 发 展 。 


8.4.2 ”中 间 层 的 权限 


中 间 件 层 在 大 数据 体系 内 承上启下 ， 上 层 应 用 可 能 属于 多 种 用 户 ， 其 对 基础 平 
台 的 访问 需要 进行 控制 ， 这 些 管控 往往 是 按 业 务 划分 的 。 大 数据 基础 集群 主要 用 来 
提供 基础 的 存储 、 运 算 服 务 ， 对 更 灵活 、 贴 近 业 务 的 管控 不 是 其 关注 的 重点 。 此 部 
分 可 由 中 间 件 层 来 提供 ， 以 便 上 层 应 用 可 以 更 安全 地 在 大 数据 集群 上 运行 。 

除了 应 用 的 权限 ， 大 数据 体系 中 还 包含 了 大 数据 管理 人 员 、 运 维和 人 员 。 运 维和 人 
员 往往 对 大 数据 系统 上 存储 的 内 容 具 有 较 高 的 访问 权限 。 而 对 于 一 些 比 较 机 密 的 数 
据 ， 使 用 者 更 希望 与 业务 相关 的 高 级 别 用 户 才 具有 访问 权限 ， 其 他 人 员 应 尽量 控制 
访问 这 些 敏感 数据 的 可 能 性 。 这 要 求 大 数据 的 运 维 能 保证 系统 的 正常 运转 ， 而 不 可 
访问 数据 。 理 想 的 权限 控制 如 图 8-17 所 示 ， 运 维 人 员 无 权 访问 用 户 数据 。 


访问 权限 


业务 用 户 的 


数理 想 的 情况 
图 8-17 ”理想 的 权限 控制 
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但 实际 工作 中 要 保证 系统 的 正常 运行 ， 往 往 需要 对 系统 进行 各 种 操作 ， 这 会 要 
求 具有 较 高 的 权限 ， 实 际 的 权限 情况 如 图 8-18 所 示 。 这 与 数据 保护 存在 矛盾 。 


业务 用 户 的 运 维 人 员 的 
访问 权限 访问 权限 


实际 的 情况 
图 8-18 ”实际 的 权限 情况 


8.4.3 流 式 数据 处 理 


大 数据 目前 在 离线 分 析 方面 做 得 很 好 ， 也 是 大 数据 非常 突出 的 应 用 场景 。 但 大 
数据 的 能 力 应 当 不 止 于 此 。 数 据 往 往 在 产生 阶段 是 源源 不 断 、 持 续 地 产生 。 有 些 应 
用 场景 要 求 能 比较 及 时 地 对 数据 进行 存储 、 分 析 ， 既 有 结构 化 的 ， 也 有 非 结构 化 的 
数据 。 

实际 情况 中 流 式 数据 往往 是 通过 网 络 接口 形式 提供 的 ， 而 非 通过 格式 化 的 文件 
进行 交互 。 这 就 要 求 对 流 式 数据 有 一 个 接 入 过 程 ， 汇 聚 为 大 数据 集群 内 一 个 较 统 
一 的 形式 ， 然 后 提交 大 数据 集群 进行 处 理 。 汇 聚 的 方式 根据 具体 情况 可 能 有 所 差 
异 。 后 端的 处 理 也 会 根据 具体 的 场景 有 所 不 同 。 例 如 对 结构 化 数据 的 快速 抽取 ， 
可 考虑 HBase 等 组 件 ， 对 非 结 构 化 数据 的 分 析 可 考虑 spark 等 方式 。 流 式 数据 的 处 理 参 
见 图 8-19。 

中 间 件 层 可 以 在 大 数据 体系 内 提供 流 式 数据 的 接纳 能 力 ， 为 上 层 应 用 分 析 处 理 
流 式 数据 提供 一 个 基础 。 


权限 控制 


| 


外 部 系统 KD Kafka [>| 数据 转换 、 切 分 


大 数据 平台 
图 8-19” 流 式 数据 处 理 示 意图 
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844 图 形 化 开发 一 -人 人 都 可 使 用 大 数据 


大 数据 涉及 的 概念 、 系 统 非常 多 ， 这 需要 使 用 大 数据 的 人 员 具 有 较 完 备 的 知 
识 。 这 往往 需要 一 个 比较 专业 的 团队 才能 完成 。 而 现实 中 大 部 分 拥有 大 数据 并 且 需 
要 对 大 数据 进行 使 用 分 析 的 单位 并 非 IT 行 业 ， 不 具备 这 种 专业 化 的 能 力 。 而 专门 为 
此 事 成 立 一 个 团队 也 不 现实 。 因 此 ， 目 前 对 大 数据 的 分 析 使 用 的 门槛 较 高 的 现状 对 
大 数据 的 发 展 形成 了 一 些 限制 ， 不 利于 大 数据 在 非 IT 行 业 ， 尤 其 是 规模 不 大 的 非 IT 
行业 单位 发 展 。 

如 果 能 有 一 种 方法 降低 大 数据 的 使 用 门槛 ， 以 一 种 比较 容易 理解 、 掌 握 的 方 
式 来 对 大 数据 进行 分 析 会 更 容易 推广 大 数据 的 使 用 。 例 如 将 大 数据 的 分 析 过 程 图 形 
化 ， 不 需要 使 用 者 去 登录 系统 敲 命 令 ， 尽 量 通过 界面 拖拉 的 方式 来 建立 处 理 流程 ， 
并 对 图 形 化 流程 设置 一 些 基本 的 配置 和 参数 ， 即 可 运行 数据 分 析 流 程 ， 这 会 很 大 程 
度 地 降低 大 数据 的 使 用 门槛 。 如 果 做 得 比较 好 ， 可 以 向 人 人 都 可 使 用 大 数据 的 目标 
靠近 。 

如 图 8-20 所 示 ， 图 形 化 的 大 数据 开发 工具 大 致 具有 以 下 功能 ， 首 先 为 用 户 提供 
一 个 图 形 化 服务 的 能 力 ， 用 户 通过 图 形 化 的 组 件 编制 流程 ， 定 义 流程 后 存储 进入 流 
程 库 ， 之 后 中 间 件 层 对 流程 进行 调度 ， 流 程 的 执行 需要 和 大 数据 基础 集群 进行 交 
互 ; 之 后 获取 执行 状态 、 执 行 结果 ， 通 过 图 形 化 服务 向 用 户 展示 执行 的 信息 。 


图 形 化 设计 界面 


图 形 化 服务 端 流程 定义 


流程 执行 


流程 调度 


大 数据 基础 集群 
图 8-20 大 数据 图 形 化 开发 
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8.5 ”要 点 回顾 


本 章 首先 介绍 了 大 数据 中 间 层 的 基本 概念 和 中 间 层 在 大 数据 系统 中 位 置 。 然 后 
介绍 了 几 大 厂商 的 中 间 层 产品 (包括 中 兴 通 讯 的 ODPP、 阿 里 巴巴 的 ODPS 以 及 亚马逊 
的 Aws) 的 概念 、 架 构 、 功 能 和 应 用 场景 等 。 接 下 来 结合 大 数据 实际 应 用 介绍 如 何 利 
用 中 间 件 层 对 大 数据 系统 进行 数据 隔离 和 访问 计 费 以 及 中 间 件 层 的 必要 性 。 最 后 ， 
本 章 展望 了 中 间 件 层 的 发 展 方向 ， 如 数据 交易 、 中 间 层 权限 、 流 式 数据 处 理 以 及 图 
形 化 开发 等 。 
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9.1 可 视 化 技术 引言 


春运 是 我 国 乃至 全 球 范围 内 最 大 规模 的 短期 人 口 迁 移 活动 之 一 ， 通 信和 是 人 们 在 
迁徙 过 程 中 最 基本 的 需求 之 一 ， 因 此 迁徙 人 群 与 手机 网 民 重合 度 极 高 ， 迁 徙 人 群 绝 
大 多 数 都 是 手机 网 民 。 百 度 利用 后 台 对 每 天 数 十 亿 次 LBS( 基 于 地 理 位 置 的 服务 ) 定 位 


数据 进行 计算 分 析 ， 于 201 


新 的 观察 视角 和 方法 展现 了 春节 前 后 人 口 大 迁徙 的 轨迹 与 特征 。 中 央 电 视 台 《晚间 
新 闻 》 也 与 百度 合作 ， 首 次 通过 大 数据 可 视 化 播报 了 春节 人 口 迁 徙 情况 ， 这 是 人 们 


第 一 次 对 春运 期 间 的 人 口 雪 
历年 来 人 们 都 知道 节 


4 年 1 月 推出 了 百度 迁移 项 目 ， 通 过 数据 可 视 化 的 方式 ， 用 


E 移 有 如 此 直观 、 清 晰 的 认识 。 
段 日 期 间 车 多 ， 人 多 ， 交 通 拥 塞 ， 尽 管 各 地 媒体 都 会 在 节 


假日 开始 结束 时 ， 对 出 入 城 流程 进行 详细 报道 ， 但 一 个 城市 的 信息 只 是 一 个 点 ， 城 
市 和 城市 之 间 的 连 线 能 表达 的 信息 远大 于 一 个 孤立 的 点 的 信息 ， 图 9-1 为 百度 迁移 提 
供 的 2015 年 5 月 1 日 迁 出 热点 城市 的 数据 同样 的 数据 ， 当 通过 数据 可 视 化 的 方式 表 
现时 ， 比 文字 和 语言 更 直观 ， 更 有 说 服 力 。 


mem EA | HAR 


Dz 


9-1 百度 迁移 
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能 够 被 人 们 容易 理解 的 数据 ， 才 是 有 价值 的 数据 ， 为 了 更 直观 地 理解 数据 本 
质 ， 挖 掘 数据 价值 ， 数 据 可 视 化 是 必 不 可 少 的 环节 ; 百度 迁移 项 目 可 以 说 是 我 们 身 
边 一 个 典型 的 数据 可 视 化 案例 ， 它 以 通俗 易 通 的 形式 来 呈现 原本 非常 沉闷 烦 元 的 数 
据 ， 并 且 辅 助 以 交互 的 方式 ， 让 用 户 能 从 多 个 维度 (时 间 、 迁 移 方向 、 迁 移 热点 ) 来 挖 
掘 这 份 数 据 ， 了 解 大 数据 之 美 。 

无 论 是 大 数据 还 是 小 型 数据 ， 如 果 无 法 组 织 并 呈现 其 中 的 重要 发 现 ， 则 这 些 数 
据 都 毫 无 意义 。 这 也 是 为 何 引入 数据 可 视 化 的 原因 ， 数 据 可 视 化 不 仅 可 以 展现 您 的 
数据 ， 还 可 以 研究 并 了 解 您 的 数据 。 查 看 图 片 比 逐 行 逐 列 地 阅读 数字 更 有 助 于 人 们 
理解 数据 ， 通 过 数据 可 视 化 ， 您 可 以 更 高 效 地 提出 问题 并 获得 答案 ， 拥 有 快速 获取 
答案 的 能 力 ， 您 的 数据 才 会 更 有 价值 。 


9.2 什么 是 数据 可 视 化 


数据 可 视 化 主要 则 在 借助 于 图 形 化 手段 ， 清 晰 有 效 地 传达 与 沟通 信息 。 图 表 
在 阐述 重要 统计 数据 的 特定 数量 方面 非常 实用 ， 它 以 直观 方式 表现 主题 中 的 各 种 想 
法 ， 以 数字 表示 时 ， 理 解 起 来 就 不 会 这 么 容易 。 但 是 这 并 不 就 意味 着 ， 数 据 可 视 化 
就 一 定 因 为 要 实现 其 功能 用 途 而 令 人 感到 枯燥 乏味 ， 或 者 是 为 了 看 上 去 绚丽 多 彩 而 
显得 极端 复杂 。 为 了 有 效 地 传达 思想 概念 ， 美 学 形式 与 功能 需要 齐头并进 ， 通 过 
直观 地 传达 关键 的 方面 与 特征 ， 从 而 实现 对 于 相当 稀 朴 而 又 复杂 的 数据 集 的 深入 
洞察 。 

数据 可 视 化 的 发 展 

数据 可 视 化 领域 的 起 源 可 以 追溯 到 20 世 纪 50 年 代 计算 机 图 形 学 的 早期 。 当 
时 ， 人 们 利用 计算 机 创建 出 了 首 批 图 形 图 表 。1987 年 ， 由 布鲁斯 。 麦 考 梅 克 、 托 
马 斯 。 EG A NFS Ee + 布朗 所 编写 的 美国 国家 科学 基金 会 报告 万 swa1izatiom in 
Scientific Computing， 对 于 这 一 领域 产生 了 大 幅度 的 促进 和 刺激 。 这 份 报告 强调 了 新 
的 基于 计算 机 的 可 视 化 技术 方法 的 必要 性 。 随 着 计算 机 运算 能 力 的 迅速 提升 ， 人 们 
建立 了 规模 越 来 越 大 、 复 杂 程 度 越 来 越 高 的 数值 模型 ， 从 而 造就 了 形形色色 体积 庞 
大 的 数值 型 数据 集 。 同 时 ， 人 们 不 但 利用 医学 扫描 仪 和 显微镜 之 类 的 数据 采集 设备 
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产生 大 型 的 数据 集 ， 而 且 还 利用 可 以 保存 文本 、 数 值 和 多 媒体 信息 的 大 型 数据 库 来 
收集 数据 。 因 而 ， 就 需要 高 级 的 计算 机 图 形 学 技术 与 方法 来 处 理 和 可 视 化 这 些 规模 
庞大 的 数据 集 。20 世 纪 90 年 代 初 期 ， 人 们 发 起 了 一 个 新 的 ， 称 为 “信息 可 视 化 ” 
的 研究 领域 ， 则 在 为 许多 应 用 领域 之 中 对 于 抽象 的 异 质 性 数据 集 的 分 析 工 作 提供 
支持 。 

数据 可 视 化 是 一 个 处 于 不 断 演变 之 中 的 概念 ， 其 边界 在 不 断 地 扩大 ; 狭义 上 的 
数据 可 视 化 指 的 是 数据 用 统计 图 表 方 式 呈 现 ， 而 信息 可 视 化 则 是 将 非 数 字 的 信息 进 
行 可 视 化 。 前 者 用 于 传递 信息 ， 后 者 用 于 表现 抽象 或 复杂 的 概念 、 技 术 和 信息 ; 而 
广义 上 的 数据 可 视 化 则 是 数据 可 视 化 、 信 息 可 视 化 以 及 科学 可 视 化 等 多 个 领域 的 统 
称 ， 它 允许 利用 图 形 、 图 像 处 理 、 计 算 机 视觉 以 及 用 户 界面 ， 通 过 表达 、 建 模 、 动 
画 的 显示 ， 对 数据 加 以 可 视 化 解释 ， 将 数据 的 各 种 属性 和 变量 呈现 出 来 ， 帮 助人 们 
理解 和 观察 抽象 概念 。 

数据 可 视 化 的 特点 

(1) 交互 性 :可视化 分 析 是 获取 数据 、 单 向 表示 数据 、 注 意 结果 和 提出 后 续 问 题 
的 过 程 。 后 续 问题 可 能 需要 向 下 钻 取 、 向 上 钼 取 、 筛 选 、 引 入 新 数据 或 创建 数据 的 
其 他 视图 。 如 果 没有 交互 活动 ， 则 无 法 通过 分 析 解 答 提出 的 问题 。 通 过 适当 的 交互 
活动 ， 数 据 可 视 化 成 为 了 分 析 师 思维 过 程 的 自然 延伸 。 

(2) 多 维 性 : 数据 可 视 化 必须 足够 灵活 以 便 能 够 说 明 各 种 问题 ， 为 了 让 数据 以 最 
佳 可 视 化 效果 呈现 ， 通 常 要 综合 考虑 多 个 方面 : 多 维 性 体现 在 对 象 或 事件 数据 的 多 
个 属性 或 变量 ， 而 数据 可 以 按 其 每 一 维 的 值 ， 将 其 分 类 、 排 序 、 组 合 和 显示 。 

(3) 可 视 性 : 数据 可 以 用 图 像 、 曲 线 、 二 维 图 形 、 三 维 体 和 动画 来 显示 ， 并 可 对 
其 模式 和 相互 关系 进行 可 视 化 分 析 。 

数据 可 视 化 的 分 类 

数据 可 视 化 可 以 分 为 解释 型 和 探索 型 两 大 类 。 

解释 型 ， 人 类 不 善于 直接 解读 数据 。 但 人 类 的 视觉 系统 善于 阅读 图 形 ， 并 从 
中 获取 答案 ， 可 视 化 就 是 将 数据 编码 成 图 形 ， 再 由 其 他 人 读 取 图 形 ， 解 码 信息 。 这 
种 可 视 化 实际 上 是 一 种 对 已 知 数据 进行 解释 性 可 视 化 的 过 程 ， 主 要 是 通过 数据 视图 
展现 设计 者 已 经 发 现 的 结论 ， 传 达 给 读者 ; 我 们 日 常熟 悉 的 静态 图 表 ， 包 括 饼 图 、 
折线 图 、 柱 状 图 等 ， 这 些 原 始 统计 图 表 都 是 最 基础 的 数据 可 视 化 ， 此 类 可 视 化 是 设 
计 者 事先 选择 好 某 种 数据 维度 ， 对 数据 进行 统计 计算 ， 然 后 展现 出 来 ， 这 种 只 能 算 


第 9 章 
可 视 化 技术 


作 数 据 可 视 化 的 初级 阶段 ， 可 视 化 只 涉及 数据 模型 中 的 二 维 或 者 三 维 ， 由 设计 者 来 
选择 一 种 切面 视角 进行 展现 ;而 数据 一 般 都 是 有 多 个 维度 的 ， 面 对 复杂 的 多 维 数据 
模型 ， 就 需要 有 更 先进 的 技术 来 展示 数据 ;交互 性 和 多 维 性 是 数据 可 视 化 进入 高 级 
阶段 的 显著 特性 ， 数 据 模型 更 加 抽象 ， 直 接 与 可 视 化 的 表达 形式 进行 关联 ， 设计 者 
通过 数据 建 模 ， 设 计 与 数据 模型 匹配 的 图 形 模式 ， 由 使 用 者 通过 交互 的 方式 筛选 数 
据 ， 选 择 自己 关心 的 维度 ， 实 时 查看 分 析 数据 。 

探索 型 : 探索 型 视图 工具 可 以 帮 读 者 发 现 数据 中 明显 的 、 有 价值 的 模型 ， 探 
索 型 视图 与 数据 模型 的 关联 更 加 紧密 ， 一 般 是 先进 行业 数据 建 模 ， 然 后 确定 展现 方 
式 ， 通 过 数据 和 输入， 自动 产生 可 视 化 视图 ， 使 用 者 通过 对 产生 的 视图 进行 分 析 ， 
挖掘 其 中 的 信息 和 价值 ， 视 图 希望 表达 的 结论 ， 并 不 是 已 经 发 现 的 ， 而 是 等 待 发 
现 的 。 

借助 探索 型 可 视 化 分 析 ， 您 还 可 以 随时 做 两 件 事 : 

> 改变 正在 查看 的 数据 ， 因 为 不 同 的 问题 往往 需要 不 同 的 数据 。 

> 改变 查看 数据 的 方式 ， 因 为 每 种 视角 都 可 以 回答 不 同 的 问题 。 

利用 这 些 步 又， 您 就 进入 了 一 种 “可 视 化 分 析 循 环 ” 的 状态 : 获取 数据 、 查 看 
数据 、 提 问 并 回答 问题 ， 然 后 周而复始 。 每 一 次 ， 您 的 疑问 都 会 逐渐 深化 。 您 可 以 
向 下 钻 取 、 向 上 追溯 ， 或 者 横向 搜索 。 您 随时 可 以 把 新 数据 添加 进来 ， 随 着 可 视 化 
加 速 并 扩展 您 的 思维 ， 您 会 创建 一 个 接 一 个 的 视图 ， 准 备 就 绪 后 ， 就 可 以 和 同事 分 
享 。 同 事 提出 并 回答 自己 的 问题 ， 加 速 整个 团队 的 洞 见 、 行 动 和 业务 成 果 。 

解释 型 和 探索 型 数据 可 视 化 ， 并 没有 谁 优 谁 劣 ， 它 们 的 适用 人 群 和 场景 各 有 
不 同 。 

很 多 网 站 都 会 针对 访问 的 来 源 和 时 间 进 行 统计 分 析 ， 挖 所 用 户 和 潜在 用 户 的 行 
为 习惯 ， 用 于 改进 推广 方式 ， 提 高 站 点 的 访问 量 ; 站 点 的 访问 数据 就 是 大 数据 的 一 
种 ， 此 类 数据 有 多 种 关键 字 ， 如 访问 时 间 、 访 问 来 源 、 访 问 者 地 点 等 ， 图 9-2 是 某 站 
点 的 用 户 访问 的 来 源 统计 图 ， 设 计 者 选择 了 访问 时 间 和 访问 来 源 两 个 维度 进行 数据 
分 析 ， 并 针对 访问 来 源 中 的 搜索 引擎 进行 细 化 分 析 ， 用 户 通 过 这 种 可 视 化 的 图 形 ， 
可 以 很 清晰 地 看 出 各 自 数 据 来 源 所 占 的 比例 ， 以 及 其 中 哪 种 搜索 引擎 贡献 最 大 ， 同 
时 可 以 通过 交互 的 方式 ， 过 滤 自 己 不 关注 的 数据 (如 取消 联盟 广告 的 对 比 )， 按 自己 的 
视角 来 分 析 数 据 ， 挖 掘 数据 中 隐藏 的 价值 。 
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一 - 直接 访问 -二 邮件 营销 -二 联盟 广告 一 视频 广告 -一 搜索 引擎 
四 百度 全 谷歌 十 必 应 全 其 他 
必 应 
谷歌 上 1500 
百度 


周一 周二 周三 周 四 周 五 周 六 周 日 
ZAGAwWh SHS 
图 9-2 ”用 户 访问 来 源 统 计 
图 9-2 是 一 种 典型 的 解释 型 数据 可 视 化 ， 图 形 分 析 的 维度 由 设计 者 预先 设计 好 ， 
由 用 户 来 决定 表现 的 形式 和 表现 的 数据 ;表现 形式 中 涉及 的 数据 模型 是 设计 者 预先 
定义 好 的 ; 例如 上 述 图 形 对 搜索 引擎 进行 了 细 化 分 类 对 比 ， 如 果 用 户 希 望 对 邮件 营 
销 和 访问 时 间 进 行 细 化 分 类 对 比 ， 以 查看 哪 类 邮箱 用 户 在 什么 时 间 访 问 量 最 高 ， 这 
就 超出 了 设计 者 想 表 达 内 容 的 范畴 ; 但 这 并 不 是 说 设计 者 无 法 实现 ， 而 是 数据 的 维 
度 比 较 多 ， 通 常会 选择 行业 里 面 关 注 度 最 高 的 维度 进行 分 析 ， 或 者 根据 用 户 的 需求 
进行 定制 。 
对 于 同样 的 站 点 访问 数据 ， 如 果 使 用 探索 型 的 可 视 化 工具 进行 分 析 ， 则 会 是 另 
一 种 完全 不 同 的 方式 ， 探 索 型 的 可 视 化 工具 一 般 会 设计 成 和 数据 源 解 耦 的 工具 ， 支 
持 excel、csv 等 各 种 关系 型 数据 库 作 为 数据 源 ， 工 具 的 设计 并 不 涉及 数据 的 分 析 维 
度 ， 能 从 哪些 维度 分 析 取 决 于 数据 源 的 数据 模型 建 模 。 探 索 型 可 视 化 工具 可 以 根据 
数据 源 中 的 数据 属性 或 者 属性 的 组 合作 为 一 种 维度 分 析 ， 但 并 不 是 所 有 的 属性 作为 
维度 都 有 意义 ， 所 以 需要 用 户 结合 行业 领域 知识 ， 选 择 合理 的 分 析 维度 进行 分 析 。 
图 9-3 是 使 用 探索 型 可 视 化 工具 Tableau 针 对 大 学 招生 成 绩 数据 进行 的 分 析 ， 分 析 
的 维度 由 使 用 者 自己 选择 ， 工 具 本 身 是 和 导入 数据 集 解 耦 的 ， 工 具 并 不 会 预先 设计 
一 种 数据 维度 或 展现 形式 ， 工 具 只 是 根据 数据 集中 的 字段 属性 来 提供 分 析 维 度 的 选 
择 ; 希望 通过 工具 表达 展现 的 内 容 ， 完 全 由 使 用 者 来 设计 ， 使 用 者 可 以 设计 符合 自 
己 视角 的 分 析 模 型 ， 选 择 某 种 合适 的 图 形 来 展现 数据 。 这 种 和 数据 源 完全 解 看 的 方 
式 ， 用 户 可 以 将 关注 点 放 在 自己 的 分 析 模型 上 ， 即 使 数据 发 生变 化 ， 也 可 以 使 用 同 
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图 9-3 ”大 学 招生 成 绩 分 布 


9.3 数据 可 视 化 设计 


数据 可 视 化 的 应 用 为 我 们 搭建 了 新 的 桥梁 ， 让 我 们 能 洞察 世界 的 究竟 ， 发 现形 
形 色 色 的 关系 ， 感 受 每 时 每 刻 围绕 在 我 们 身边 的 信息 变化 ， 还 能 让 我 们 理解 其 他 形 
式 下 不 易 发 掘 的 事物 ， 那 么 如 何 才 能 做 好 大 数据 的 可 视 化 呢 ? 

整个 设计 流程 中 ， 数 据 是 基础 ， 如 果 仅 仅 把 数据 置 于 孤立 、 静 态 的 图 形 中 ， 
则 会 限制 可 视 化 能 够 回答 的 问题 数量 ， 让 数据 贯彻 其 中 ， 把 来 龙 去 脉 娓 娓 道 来 ， 成 
为 数据 可 视 化 的 核心 所 在 。 数 据 可 视 化 ， 并 不 意味 着 一 定 要 使 用 很 炫 的 图 形 ， 不 同 
类 型 的 数据 需要 的 展现 方式 不 同 ， 即 使 是 最 朴实 的 展现 方式 ， 也 有 适用 的 场合 ， 可 
视 化 的 最 终 目的 是 为 了 用 直观 、 交 互 的 方式 传递 数据 中 隐藏 的 信息 ， 回 
题 。 如 果 图 形 很 绚丽 ， 但 是 无 法 从 图 形 中 获取 有 价值 的 信息 ， 这 样 的 可 视 化 是 不 可 


取 的 。 


答 用 户 的 问 


数据 可 视 化 设计 ， 需 要 根据 场景 对 数据 维度 或 属性 进行 筛选 ， 根 据 目的 和 用 
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户 群 选用 表现 方式 ， 同 一 份 数 据 通过 数据 可 视 化 可 以 展现 成 多 种 看 起 来 截然 不 同 的 
形式 。 
> 有 的 可 视 化 目标 是 为 了 观测 、 跟 踪 数 据 ， 所 以 就 要 强调 实时 性 、 变 化 、 运 算 
能 力 ， 可 能 就 会 生成 一 份 不 停 变 化 、 可 读 性 强 的 图 表 ; 
> 有 的 为 了 分 析 数 据 ， 所 以 要 强调 数据 的 呈现 度 ， 可 能 会 生成 一 份 可 以 检索 、 
交互 式 的 图 表 ; 
> 有 的 为 了 发 现 数 据 之 间 的 潜在 关联 ， 可 能 会 生成 分 布 式 的 多 维 的 图 表 ; 
> 有 的 为 了 帮助 普通 用 户 或 商业 用 户 快速 理解 数据 的 含义 或 变化 ， 会 利用 漂亮 
的 色彩 搭配 、 动 画 创建 生动 并 具有 吸引 力 的 图 表 。 


9.3.1 数据 可 视 化 工具 


我 们 获得 的 数据 远 远 超过 了 我 们 对 如 何 使 用 数据 的 了 解 ， 为 了 更 加 深入 地 了 解 
数据 ， 我 们 需要 相应 的 数据 可 视 化 工具 ， 来 辅助 我 们 处 理 这 些 数据 。 本 章节 主要 介 
绍 一 些 常 用 的 数据 可 视 化 工具 ， 看 看 这 些 工具 在 大 数据 分 析 场 景 能 给 我 们 带 来 什么 
便利 。 

(1) D3(Data-Driven Documents) 

D3 是 一 个 由 《纽约 时 报 》 可 视 化 编辑 Mike Bostock 与 他 斯 坦 福 的 教授 和 同 
学 合作 开发 的 ， 用 于 数据 文件 处 理 的 JavaScript Library， 全 称 叫 做 Data-Driven 
Documents。D3 的 应 用 非常 广泛 ， 现 在 已 经 成 为 了 主流 数据 可 视 化 工具 之 一 ，《 纽 约 
时 报 》 出 品 的 一 些 赫 赤 有 名 的 数据 产品 ， 也 都 使 用 了 D3.js， 如 图 9-4《 纽 约 时 报 》 的 
512 Paths to the White House. 

D3 的 最 大 特性 就 是 能 把 数据 和 DOM( 文 档 对 象 模型 ) 结 合 ， 从 而 对 DOM 进 行 数据 
驱动 的 操作 和 交互 ， 使 得 数据 与 图 形成 为 一 个 整体 ， 即 图 形 中 有 数据 、 数 据 中 有 图 
形 。 如 此 一 来 ， 在 生成 图 形 或 更 改 图 形 时 ， 就 可 以 方便 地 根据 数据 进行 操作 ， 并 且 
当 数 据 更 改 之 后 ， 也 能 简单 地 更 改 图 形 。D3 使 用 起 来 非常 灵活 ， 图 形 表 现 方式 非常 
丰富 ， 非 常 适合 表达 数据 之 间 的 联系 。 网 (http://d3js.org/) 有 很 多 丰富 的 样 例 ， 如 果 您 
发 觉 菜 种 表现 形式 也 特别 适合 自己 行业 的 数据 ， 只 需 蔡 换 数据 ， 稍 加 修改 ， 便 可 呈 
现 出 一 份 属于 自己 的 可 视 化 数据 。 
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512 Paths to the White House 
Select a winner in the most competitive states below to see all the paths to victory available for 
either candidate. 
Fla. Ohio Nc. Va. Wis. Colo. Iowa Nev. NH. 
DemRep| [DenRep| [DemRep| DenR DemiR DenRep| DemRep| |DenlRep| DemRe 
Obama has 431 ways to win 5 ties Romney has 76 ways to win 
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New Hampshire 有 as a 


图 9-4 《纽约 时 报 》 的 512 Paths to the White House 


(2) 百度 ECharts 

ECharts 是 来 自 百 度 商业 前 端 数据 可 视 化 团队 的 开源 产品 ， 它 是 基于 html5 Canvas 
的 一 个 纯 Javascript 图 表 库 ， 相 对 于 其 他 图 表 库 ，ECharts 的 特点 是 深度 数据 互动 可 视 
化 ，ECharts 诉 求 的 是 尽 可 能 地 为 用 户 呈 现 数据 真实 的 一 面 ， 它 提供 了 一 些 直观 、 易 
用 的 交互 方式 以 方便 你 对 所 展现 的 数据 进行 挖掘 、 提 取 、 修 正 或 整合 ， 让 你 可 以 更 
加 专注 于 你 所 关心 地 方 ， 无 论 是 系列 选择 、 区 域 缩放 还 是 数值 筛选 ， 让 你 可 以 有 不 
同 的 方式 解读 同样 的 数据 。 浏 览 ECharts 所 输出 的 图 表 ， 你 不 再 只 是 个 “读者 ”， 数 
据 的 呈现 不 仅 是 诉说 ， 而 是 允许 用 户 对 所 呈现 数据 进行 挖掘 、 整 合 ， 让 可 视 化 成 为 
辅助 人 们 进行 视觉 化 思考 的 方式 。 

ECharts 的 诞生 就 是 为 了 重新 定义 大 数据 时 代 的 数据 图 表 ， 推 出 之 后 在 国内 的 热 
度 迅速 提高 ， 是 数据 可 视 化 领域 一 款 不 可 多 得 的 精品 。 图 9-5 是 通过 百度 指数 分 析 的 
商业 图 表 软 件 highcharts 和 ECharts 在 2012 年 1 月 至 2015 年 5 月 之 间 的 搜索 热度 对 比 。 
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highcharts 是 一 个 用 纯 JavaScript 编 写 的 图 表 库 ， 能 够 很 简单 、 便 捷 地 在 web 网 站 或 
web 应 用 程序 添加 有 交互 性 的 图 表 ， 并 且 免 费 提供 给 个 人 学 习 、 个 人 网 站 和 非 商业 用 
途 使 用 。 从 搜索 热度 可 以 看 到 本 地 化 的 ECharts 推 出 之 后 ， 关 注 度 就 迅速 上 升 ， 目 前 
无 论 是 从 功能 还 是 从 关注 度 上 来 看 ， 都 已 经 具备 与 商业 图 表 叫 板 的 实力 。 


mhighcharts mi echarts 口 新 闻 头 条 口 平均 值 上 
搜索 指数 wt 1200 
1000 
800 
600 
一 400 
1 200 
201248 201348 2014 年 2015 年 


图 9-5 highcharts 和 ECharts 在 百度 指数 的 对 比分 析 


D3 和 Echarts 都 是 解释 型 的 可 视 化 工具 库 中 比较 优秀 的 代表 。Echarts 的 图 表 更 加 
精美 ， 辅 助 于 流畅 的 动画 ， 很 适合 按照 其 套路 快速 设计 一 副 可 视 化 图 形 ; 但 如 果 跳 
出 其 原始 的 设计 初衷 ， 希 望 基于 Echarts 提 供 的 图 表 进 行 扩展 ， 就 没有 那么 方便 了 。 
而 D3 则 灵活 性 很 强 ， 只 要 你 想得到 ， 你 就 可 以 创造 出 各 种 图 形 展示 方式 ， 但 如 果 希 
望 图 形 的 精细 程度 和 动画 效果 达到 Echarts 的 程度 ， 还 需要 花费 不 少 工夫 进行 调整 ， 
所 以 业界 也 有 不 少 基于 D3 扩展 的 可 视 化 产品 。 除 此 之 外 ， 淘 宝 数据 产品 部 可 视 化 小 
组 也 推出 了 DataVjs 这 样 的 开源 可 视 化 产品 ， 提 供 了 一 些 常用 的 分 析 大 数据 的 组 件 。 

不 难看 出 ， 这 几 款 主流 的 数据 可 视 化 工具 ， 都 是 诞生 于 高 强度 处 理 分 析 数 据 的 
企业 ，《 纽 约 时 报 》、 百 度 、 淘 宝 都 拥有 长 期 的 数据 处 理 经 验 ， 他 们 设计 这 样 的 工 
具 ， 首 先是 立足 于 满足 自身 的 日 常 统计 分 析 的 需要 ， 然 后 再 经 过 积累 锤炼 ， 作 为 开 
源 产品 贡献 出 来 。 这 样 经 过 实战 洗礼 的 工具 ， 应 用 于 大 数据 分 析 领 域 ， 自 然 是 得 心 
应 手 。 

(3) ggplot2 

ggplot2 是 用 于 绘图 的 R 语 言 扩展 包 ， 其 理念 根植 于 Grammar of Graphics 一 书 。 一 
张 统 计 图 形 就 是 从 数据 到 点 、 线 或 方块 等 几何 对 象 的 颜色 、 形 状 或 大 小 等 图 形 属性 
的 一 个 映射 ， 其 中 还 可 能 包含 对 数据 进行 统计 变换 (如 求 均值 或 方差 )， 最 后 将 这 个 映 
射 绘制 在 一 定 的 坐标 系 中 就 得 到 了 我 们 需要 的 图 形 。 图 中 可 能 还 有 分 面 ， 就 是 生成 
关于 数据 的 不 同 子 集 的 图 形 。 

YE: R 是 一 个 数据 分 析 和 图 形 显示 的 程序 设计 环境 (A system for data analysis and 
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visualization which is built based on S language)，R 语 言 是 一 门 统计 语言 ， 主 要 用 于 数 
学 建 模 、 统 计 计算 、 数 据 处 理 、 可 视 化 等 几 个 方向 。 

使 用 ggplot2 绘 图 的 过 程 就 是 选择 合适 的 几何 对 象 、 图 形 属性 和 统计 变换 来 充分 
暴露 数据 中 所 含有 的 信息 的 过 程 。 本 质 上 来 说 ，ggplot2 将 绘图 视 为 一 种 映射 ， 即 从 
数学 空间 映射 到 图 形 元 素 空间 。 例 如 将 不 同 的 数值 映射 到 不 同 的 色彩 或 透明 度 ， 该 
绘图 包 的 特点 在 于 并 不 定义 具体 的 图 形 (如 散 点 图 、 箱 线 图 等 )， 而 是 定义 各 种 底层 组 
件 ( 如 线条 、 方 块 ) 来 合成 复杂 的 图 形 ， 这 使 它 能 以 非常 简洁 的 函数 构建 各 类 图 形 ， 而 
且 默 认 条 件 下 的 绘图 品质 就 能 达到 出 版 要 求 。 

ggplot2 属 于 探索 型 的 可 视 化 工具 ， 比 较 适 合 多 维 数据 的 分 析 场 景 ， 可 以 从 数据 
的 多 个 切面 ， 进 行 分 析 。 设 计 者 拿 到 一 份 数据 之 后 ， 可 以 从 数据 的 多 个 维度 进行 切 
面 分 析 ， 挖 掘 数 据 中 隐藏 的 信息 ， 通 过 ggplot2 进 行 映射 绘制 ， 将 数据 以 图 形 的 方式 
直观 地 展现 出 来 。ggplot2 更 多 的 是 作为 一 种 统计 分 析 的 工具 ， 可 以 协助 我 们 分 析 大 
量 的 多 维 数据 ， 建 立 自己 的 分 析 模 型 ， 从 数据 中 推演 出 自己 的 某 种 观点 。 其 制作 的 
图 形 没 有 交互 性 ， 一 般 用 于 新 闻 出 版 类 似 的 文章 中 ， 用 于 辅助 证 明 作 者 提出 的 某 种 

图 9-6 是 使 用 ggplot2 针 对 钻石 的 等 级 、 切 工 、 价 格 进行 分 析 汇 总 的 数据 。 


cut © Fair * Good * VeryGood 。 Premium 。 Ideal 


Premium Ideal 


图 9-6 ”钻石 在 价格 、 切 工 、 等 级 各 个 维度 的 分 布 
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(4) Tableau 

通常 情况 下 ， 人 们 分 析 数 据 ， 都 是 希望 从 数据 中 得 到 自己 疑问 的 解答 ， 上 面 介 
绍 的 一 些 数据 可 视 化 工具 ， 使 用 起 来 都 需要 具备 一 定 的 相关 知识 ， 但 往往 了 解数 据 
并 且 有 疑问 的 人 员 不 一 定 具 备 使 用 工具 回答 问题 的 技能 ， 而 具备 此 技能 的 人 员 却 不 
了 解数 据 。 

Tableau 是 一 款 探索 型 的 可 视 化 分 析 工 具 ， 它 的 理念 在 于 ， 数 据 分 析 和 后 续 报 告 
不 应 是 孤立 的 活动 ， 而 是 应 集成 为 单一 的 可 视 化 分 析 过 程 ， 该 过 程 使 用 户 可 按照 其 
思路 快速 查看 其 数据 中 的 模式 ， 并 动态 切换 视图 。Tableau 将 数据 探索 和 数据 可 视 化 
合并 到 一 个 任何 人 都 可 以 快速 学 习 的 、 易 于 使 用 的 应 用 程序 中 。 任 何 熟悉 Excel 的 人 
都 可 以 创建 丰富 的 交互 式 分 析 和 强大 的 仪表 板 ， 它 不 需要 用 户 具备 编程 技能 ， 也 不 
需要 去 学 习 数 据 可 视 化 技术 ， 只 要 您 了 解数 据 ， 就 可 以 把 主要 时 间 集 中 在 思考 问题 
上 ， 分 析 数 据 的 过 程 变 得 更 快速 、 轻 松 和 更 为 深入 透彻 。Tableau 可 以 让 您 创建 查看 
数据 的 不 同 视角 ， 并 且 随 需求 的 变化 进行 更 改 。 只 需 轻 松 点 击 即 可 在 不 同 视角 间 切 
换 ， 无 须 等 待 IT 更 改 请 求 来 了 解数 据 。 

Tableau 是 一 款 商 业 软 件 ， 同 时 提供 针对 个 人 用 户 的 免费 试用 版 ， 感 兴趣 的 读者 
可 以 访问 其 官网 下 载 试用 。 


9.3.2 ”数据 可 视 化 展现 形式 


如 何 把 数据 转化 成 有 效 的 可 视 化 形式 (任何 种 类 的 图 表 或 图 形 ) 是 让 数据 发 挥 价值 
的 第 一 步 。 本 章节 将 简单 地 介绍 一 些 常用 的 分 析 图 形 ， 以 及 它们 适用 的 场景 。 

常规 图 形 

一 般 我 们 做 统计 分 析 都 会 用 到 柱状 图 、 折 线 图 、 饼 图 ， 折线 图 通常 用 于 表达 
趋势 ， 饼 图 用 于 显示 信息 的 相对 比率 ， 柱 状 图 用 于 横向 比较 数据 数值 ， 这 些 常 规 图 
形 同 样 会 用 于 数据 可 视 化 领域 ， 但 都 会 辅助 于 交互 的 方式 ， 不 仅 限于 一 份 静态 的 图 
表 ; 交互 的 方式 可 以 使 得 用 户 能 够 对 感 兴趣 的 数据 进行 深入 挖掘 。 除 此 之 外 ， 这 些 
常规 的 图 形 还 会 以 组 合 的 方式 出 现 ， 以 突出 数据 的 多 维度 。 

例如 ， 传 统 的 饼 图 一 般 用 来 表达 一 维 数据 的 比例 ， 如 果 我 们 把 饼 图 和 地 图 组 合 
起 来 使 用 ， 就 可 以 大 大 拓展 饼 图 的 使 用 方式 ， 图 9-7 是 通过 百度 ECharts 制 作 的 混合 饼 
图 ， 用 户 展现 全 国 各 省 的 GDP 数 据 ， 其 中 地 图 上 的 颜色 越 深 代表 数值 越 高 ， 同 时 用 
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户 还 可 以 通过 交互 的 方式 在 地 图 上 选择 参与 饼 图 对 比 的 区 域 ， 一 方面 可 以 通过 地 图 
形象 地 看 到 全 国 最 高 的 省 份 ， 同 时 通过 交互 式 选 择 也 避免 了 对 比 条 目 太 多 ， 无 法 区 
分 重点 ， 把 选择 的 权利 交 给 用 户 ， 用 户 可 以 根据 自己 的 疑问 去 设置 ， 进 行 对 比 。 


2011 全 国 GDP (〈 亿 元 ) 
孝 据 末 自 国家 统计 局 


Pie @ LS OO Cu OH Or 


图 9-7 全 国 各 省 的 GDP 对 比分 布 


当 想 要 再 深入 挖掘 一 些 数据 ， 但 不 确定 不 同 信息 的 关联 方式 ， 或 者 是 否 有 关联 
时 ， 可 以 选择 散 点 图 。 散 点 图 是 大 概 了 解 趋势 、 集 中 度 、 极 端 数值 的 有 效 方式 。 图 


9-8 是 通过 百度 ECharts 制 作 的 散 点 图 样 例 ， 展 现 男女 身高 体重 的 分 布 ， 可 以 一 目 了 然 
地 看 出 平均 分 布 和 极端 数值 。 


男性 女性 身高 体重 分 Ow Ort a 


EEE: Heinz 2003 


120 kg 


100 kg 


170 cm 180 cm 190 cm 


200 cm 


图 9-8 ”男性 女性 生体 重 分 布 
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张 图 呈现 数据 的 多 维 性 。 


气泡 图 
气泡 图 是 一 种 动态 的 多 维度 可 视 化 方法 ， 展 示 维 度 包括 气泡 的 x 坐标 、y 坐 标 、 
大 小 、 颜 色 、 时 间 等 5 个 维度 。 通 过 数据 多 属性 的 同步 可 视 化 以 及 时 间 动 画 ， 方 便 用 
户 探查 数据 的 差异 变化 以 及 演变 趋势 。 图 9-9 是 通过 淘宝 的 DataV 组 件 制作 的 气泡 图 
样 例 ，x 坐 标 是 搜索 指数 ，y 坐 标 是 销售 指数 ， 大 小 是 数值 ， 颜 色 用 来 分 区 分 类 ， 一 


一 绿茶 
一 红茶 


白茶 
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mE 
m= 花茶 


me 乌龙茶 
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0.304 

32 0.254 
= 0.204 
0.154 
0.105 
0.05 5 
0.00 + 
-0.05 5 


0.0 
Mist 


树 形 图 
当 希 望 一 目 了 然 地 看 清 数据 ， 发 现 不 同 部 分 与 整体 的 关系 时 ， 可 以 选择 树 形 
图 。 顾名思义 ， 把 这 种 图 表 中 的 数据 想 成 一 棵 树 : 每 根 树枝 都 赋予 一 个 矩形 ， 代 表 
其 包含 的 数据 量 。 每 一 矩形 再 细 分 为 更 小 的 矩形 (或 者 分 枝 )， 仍 然 以 其 相对 于 整体 的 
比例 为 依据 。 树 形 图 还 能 有 效 利用 空间 ， 便 于 一 目 了 然 地 看 到 整个 数据 集 。 图 9-10 是 
通过 淘宝 的 DataV 组 件 制作 的 树 形 图 样 例 ， 用 于 展现 3C 数 码 配 件 的 销售 分 布 ， 以 及 不 
同 分 类 的 数据 占 比 关系 。 图 中 的 每 个 矩形 代表 树 的 一 个 节点 ， 大 甜 形 中 的 小 矩形 代 
表 父 节点 包含 的 子 节点 。 不 同 的 节点 用 不 同 的 颜色 加 以 区 分 ， 节 点 的 值 用 矩形 面积 
的 大 小 表示 。 每 个 节点 可 以 点 击 进入 查看 更 细 分 类 的 数据 占 比 。 


01 02 03 04 05 06 07 08 09 
搜索 指数 
图 9-9 茶叶 的 销量 情况 分 布 
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根 目录 > 3G 数 码 配件 市 场 


图 9-10 3C 数 码 配件 的 销售 分 布 


箱 形 图 

箱 形 图 又 称 盒 须 图 ， 是 显示 数据 分 布 情况 的 重要 方式 。 其 名 称 显示 这 种 图 的 两 
个 部 分 : 盒 ， 包 含 数据 的 中 位 数 ， 以 及 第 1 个 和 第 3 个 四 分 位 数 ( 比 中 位 数 分 别 大 、 小 
25%); 须 ， 一 般 代 表 四 分 位 距 1.5 倍 以 内 的 数据 (第 1 个 和 第 3 个 四 分 位 数 之 间 的 差 )。 
“ 须 ” 也 可 用 来 显示 数据 内 的 最 高 点 和 最 低 点 。 当 需要 展现 一 组 数据 的 分 布 情况 
时 ， 可 以 选择 箱 形 图 。 例 如 : 查看 数据 如 何 向 某 一 段 偏 斜 ， 查 看 数据 中 的 异常 值 。 
图 9-11 是 通过 Tableau 制 作 的 盒 须 图 样 例 ， 用 于 展现 大 学 招生 成 绩 的 数据 分 布 ， 可 以 
看 出 数学 专业 和 建筑 专业 平均 分 最 高 ， 机 械 工程 专业 和 金融 专业 的 分 数 跨越 较 大 。 


一 一 159 一 一 


第 二 部 分 
大 数据 架构 师 基础 


大 学 招生 成 绩 分 布 


理子 院 Le PR 不 合格 
750 


700 


“ALEpLE i 


部 市 工程 机械 工程 建 Perey nt nein | 不 合格 


te 
+4 


图 9-11 大 学 招生 成 绩 分 布 


除 此 之 外 ， 还 有 用 于 展现 数据 之 间 的 联系 的 弦 图 、 力 图 ， 用 于 对 比 参照 目标 评 
估 指 标 表现 的 靶 心 图 ， 用 于 对 比 两 类 数据 之 间 的 交集 的 热力 图 ， 等 等 。 


9.4 数据 可 视 化 的 发 展 趋势 


随 着 各 行 各 业 对 大 数据 分 析 的 深入 ， 数 据 可 视 化 已 经 在 各 个 领域 遍地 开花 。 

企业 通过 数据 可 视 化 宣传 自己 的 产品 ， 学 校 通 过 数据 可 视 化 来 分 析 自 己 的 生 
源 ， 电 商 通 过 数据 可 视 化 分 析 客 户 的 消费 习惯 ,支付 产品 通过 数据 可 视 化 提供 年 度 
账单 ， 可 视 化 作品 是 否 优秀 ， 取 决 于 产品 本 身 能 给 用 户 带 来 什么 ? 

学 校 分 析 生 源 ， 可 以 提供 按 星 座 分 配 宿舍 的 服务 ， 电 商 分 析 客户 消费 习惯 ， 可 
以 把 用 户 最 可 能 关注 的 商品 进行 推荐 ， 支 付 产品 提供 年 度 账单 ， 可 以 增加 用 户 的 粘 
性 ， 说 到 底 都 是 给 用 户 带 来 了 附加 价值 。 这 类 优秀 作品 都 是 解释 型 的 可 视 化 作品 ， 
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在 这 些 作 品 背 后 ， 展 现形 式 多 种 多 样 ， 如 何 找到 用 户 潜在 关注 的 分 析 维度 是 数据 可 
视 化 的 核心 ， 而 探索 型 的 可 视 化 工具 可 以 协助 分 析 策 划 人 员 更 有 效 地 分 析 数 据 ， 找 
到 数据 之 间 的 关联 ， 制 作出 优秀 的 解释 型 可 视 化 作品 。 虽 然 可 视 化 在 探索 型 和 解释 
型 领域 会 各 自 独 立 发 展 ， 但 人 们 通过 探索 型 的 工具 发 现 的 数据 关联 ， 现 有 的 展现 方 
式 无 法 表达 时 ， 就 会 推动 解释 型 工具 的 更 新 。 


9.5 要 点 回顾 


本 章 首 先 介绍 了 数据 可 视 化 的 概念 、 数 据 可 视 化 的 发 展 、 数 据 可 视 化 的 特点 和 
数据 可 视 化 的 分 类 。 然 后 ， 本 章 介绍 了 如 何 进行 数据 可 视 化 设计 ， 如 常用 的 数据 可 
视 化 分 析 工 具 和 数据 可 视 化 的 常用 分 析 图 形 。 最 后 ， 本 章 展望 了 数据 可 视 化 未 来 的 
发 展 趋势 。 
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10.1 安全 体系 


目前 ， 全 球 数据 量 出 现 了 爆炸 式 的 增长 ， 而 随 着 这 种 数据 量 的 高 速 增长 ， 大 数 
据 也 开始 了 其 快速 的 发 展 ， 并 改变 着 我 们 的 生活 方式 和 工作 方式 ， 改 变 了 我 们 过 去 
对 待 数据 的 思维 认识 ， 开 始 更 加 注重 数据 的 相关 性 的 意义 ， 而 这 也 让 那些 原本 低 价 
值 的 数据 ， 因 为 可 以 挖掘 出 高 价值 的 内 容 ， 而 变 得 越 来 越 重要 ， 而 数据 的 重要 性 的 
提升 ， 也 同时 对 大 数据 的 安全 体系 提出 了 越 来 越 高 的 要 求 。 

那么 什么 是 安全 体系 呢 ? 

何谓 安全 体系 ， 即 组 织 或 整体 在 特定 范围 内 建立 的 安全 方针 和 目标 ， 以 及 随 
之 而 产生 的 直接 的 管理 活动 ， 它 是 基于 安全 方面 相关 的 一 整套 系统 整体 ， 由 物理 安 
全 、 主 机 安全 、 网 络 安全 和 应 用 安全 多 方面 所 构成 ( 见 图 10-1)。 


真实 性 | | 机 密 性 | | 完整 性 | | 可 用 性 


RENEE 


机 房 环境 | | 防 灾 建 设 | | 人 员 防 护 


SAE 
SShaOX 
Px 
eIRE 


HPATRES || HPXTSEHY |) HRT: 


图 10-1 大 数据 安全 体系 
下 面 我 们 来 逐一 认识 一 下 安全 体系 的 各 组 成 部 分 。 


10.1.1 物理 安全 


在 安全 体系 中 ， 物 理 安全 系统 是 整个 安全 体系 的 基础 ， 以 充分 考虑 自然 事件 的 
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威胁 为 前 提 ， 向 全 系统 提供 一 个 安全 的 物理 环境 ， 并 具备 对 接触 系统 的 人 员 的 整套 
完善 的 控制 手段 。 简 单 地 说 ， 物 理 安全 就 是 保护 系统 设施 设备 免 遭 各 种 自然 灾害 和 
人 为 破坏 的 技术 和 方法 。 如 果 物 理 安全 得 不 到 保证 ， 那 么 其 他 的 一 切 安全 措施 都 是 
不 稳固 的 。 

物理 安全 主要 包括 机 房 环境 安全 、 防 灾 建 设 和 人 员 防 护 等 。 

机 房 环 境 安 全 主要 是 指 机 房 及 其 基本 环境 ， 包 括 环 境 条 件 、 安 全 等 级 、 场 地 周 
围 和 机 房 的 建造 、 装 修 、 防 护 等 必须 遵循 电子 计算 机 机 房 设计 规范 和 技术 要 求 ， 要 
求 环境 安全 、 地 质 可 靠 、 场 地 抗 电磁 干扰 性 ， 要 考虑 避 开 强 振动 源 和 强 噪 声 源 ， 避 
免 设置 在 建筑 物 的 高 层 及 用 水 设备 的 下 层 和 隔壁 等 ， 以 保证 系统 能 排除 各 种 外 界 环 
境 的 影响 正常 工作 。 

防 灾 建 设 主要 包括 湿度 、 洁 净 度 、 腐 蚀 、 虫 害 、 振 动 与 冲击 、 品 音 、 电 气 干 
扰 、 地 震 、 雷 击 等 ， 是 针对 自然 灾害 而 采取 的 安全 措施 和 对 策 ， 同 时 ， 还 需要 兼顾 
一 些 化 学 和 生物 灾害 的 可 能 性 。 

人 员 防 护 主要 是 通过 建立 规范 化 的 防护 措施 ， 建 立 起 对 于 会 接触 到 系统 的 人 员 
的 一 套 完善 的 技术 控制 手段 ， 以 防止 非 授权 人 员 进 入 或 接近 机 房 环 境 ， 从 而 保护 机 
房 的 物理 环境 不 被 他 人 蓄意 破坏 。 


10.1.2 主机 安全 


主机 安全 ， 就 是 指 保证 主机 在 数据 存储 和 处 理 的 保密 性 、 完 整 性 、 可 用 性 ， 
包括 硬件 、 固 件 、 系 统 软件 的 自身 安全 ， 以 及 一 系列 附加 的 安全 技术 和 安全 管理 措 
施 ， 从 而 建立 一 个 完整 的 主机 安全 保护 环境 。 

主机 安全 是 整个 安全 体系 的 重要 组 成 部 分 ， 是 建立 在 物理 安全 基础 之 上 的 安全 
体系 的 进一步 完善 和 补充 。 

要 想 做 到 主机 级 别 的 安全 ， 首 先 要 采用 高 安全 标准 的 、 性 能 可 靠 的 硬件 设备 来 
作为 系统 主机 ， 比 如 采用 各 大 厂商 的 服务 器 ， 这 些 服 务 器 往往 具备 出 类 拔 茜 的 质量 
和 性 能 ， 以 及 坚实 可 靠 的 安全 保证 。 

其 次 要 采购 第 三 方 的 安全 的 操作 系统 。 

安全 的 操作 系统 ， 一 般 是 指 计算 机 信息 系统 在 自主 访问 控制 、 强 制 访问 控制 、 
标记 、 身 份 鉴别 、 客 体重 用 、 审 计 、 数 据 完整 性 、 隐 蔽 信道 分 析 、 可 信 路 径 、 可 信 
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恢复 等 多 个 方面 满足 相应 的 安全 技术 要 求 。 不 但 具有 相应 的 安全 特性 ， 还 应 该 具有 
足够 的 安全 保障 能 力 。 

最 后 ， 再 需要 考虑 相对 应 的 合适 的 杀毒 软件 ， 病 毒 是 编制 或 者 在 计算 机 程序 中 
插入 的 破坏 计算 机 功能 或 数据 ， 能 影响 计算 机 软件 硬件 的 正常 运行 并 且 能 够 自我 复 
制 的 一 组 计算 机 指令 或 者 程序 代码 。 他 具有 传染 性 、 寄 生性 、 隐 蔽 性 、 触 发 性 和 破 
坏 性 等 几 大 特点 ， 可 以 说 一 旦 感染 病毒 ， 就 会 导致 系统 无 法 正常 工作 ， 设 置 数 据 破 
坏 ， 造 成 重大 损失 。 

所 以 必须 采用 和 主机 系统 相 适 配 的 安全 可 靠 的 杀毒 软件 ， 这 样 才 能 够 对 该 系统 
做 到 全 方位 立体 式 的 安全 覆盖 ， 以 保证 主机 和 运行 在 其 上 的 应 用 程序 不 会 被 外 部 病 
毒 和 非法 程序 所 干扰 。 

一 般 来 说 ， 对 于 主机 安全 的 保证 ， 大 部 分 的 解决 方案 可 以 通过 采购 著名 硬件 厂 
商 的 专业 产品 来 完成 。 因 为 知名 厂商 的 硬件 设备 不 仅 质量 和 性 能 可 以 得 到 很 好 的 保 
证 ， 经 受过 长 时 间 严 格 的 测试 ， 而 且 都 会 同时 提供 相 匹配 的 操作 系统 和 配套 的 安全 
保护 软件 ， 从 而 让 主机 能 够 得 到 全 方位 的 安全 保证 ， 确 保 主 机 层面 的 安全 稳定 。 


10.1.3 MARS 


现在 是 一 个 以 网 络 计算 为 中 心 的 信息 时 代 ， 计 算 机 网 络 高 速 发 展 ， 导 致 网 络 安 
全 问题 日 益 突出 。 网 络 系统 的 开放 性 、 数 据 资源 的 共享 性 、 通 信 通 道 的 公用 性 和 连 
接 形式 的 多 样 性 ， 都 对 网 络 安全 提出 了 很 高 的 要 求 ， 所 以 一 个 安全 的 网 络 系统 的 建 
立 也 就 成 了 整个 安全 体系 中 至 关 重 要 的 一 环 。 

网 络 安全 ， 就 是 要 保护 整个 网 络 系统 中 的 硬件 、 软 件 ， 乃 至 网 络 通信 中 的 数据 
都 受到 足够 安全 的 保护 而 不 被 破坏 。 

首先 要 有 一 整套 安全 稳定 的 网 络 设备 来 构建 我 们 的 网 络 环境 。 现 在 很 多 网 络 硬 
件 存在 着 天 然 的 安全 缺陷 ， 比 如 可 靠 性 差 、 存 在 漏洞 等 ， 这 样 就 很 容易 被 网 络 中 的 
恶意 用 户 发 现 和 和 利用。 所以， 必须 采用 有 着 性 能 稳定 的 高 安全 级 别 的 网 络 设备 ， 从 
根本 上 保证 网 络 服务 的 安全 可 靠 。 

其 次 ， 采 用 安全 可 靠 的 防火 墙 。 防 火 墙 技术 是 建立 在 现代 通信 网 络 技术 和 信息 
安全 技术 基础 上 的 应 用 型 安全 技术 ， 越 来 越 多 地 应 用 于 专用 网 络 与 公共 网 络 的 互联 
环境 中 。 一 般 来 说 ， 我 们 会 在 自 有 的 网 络 系统 和 互联 网 相连 的 地 方 布置 防火 墙 。 防 
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火 墙 的 意义 在 于 ， 可 以 限制 进入 内 部 网 络 的 人 员 ， 过 滤 掉 不 安全 的 网 络 服 务 和 非法 
用 户 ， 限 制 特殊 站 点 的 访问 ， 记 录 各 种 网 络 行为 和 活动 ， 对 网 络 攻击 进行 监测 和 告 
警 ， 从 而 成 为 网 络 安全 的 第 一 道 屏 障 。 

最 后 ， 在 网 络 侧 建立 网 络 入 侵 检测 和 防范 系统 。 一 方面 ， 通 过 网 络 入 侵 检测 ， 
快速 、 灵 活 、 准 确 地 发 现 各 种 网 络 攻击 ， 识 别 出 异 常 流量 、 网 络 病毒 等 会 对 网 络 安 
全 造成 问题 的 隐患 。 另 一 方面 ， 要 能 够 保护 网 络 服务 不 被 攻击 所 阻 断 。 比 如 DDOS 这 
样 的 持续 性 攻击 ， 往 往 能 够 造成 网 络 资源 的 损耗 和 服务 的 恶化 ， 所 以 就 需要 识别 出 
合法 访问 和 攻击 行为 ， 并 区 别处 理 ， 才 能 保证 合法 用 户 的 网 络 访问 不 受 影响 ， 保 证 
整个 网 络 服务 的 安全 顺畅 。 


10.14 应 用 安全 


应 用 安全 ， 顾 名 思 义 就 是 保障 应 用 程序 使 用 过 程 和 结果 的 安全 。 简 言 之 ， 就 是 
针对 应 用 程序 或 工具 在 使 用 过 程 中 可 能 出 现 计 算 、 传 输 数据 的 泄露 和 失窃 ， 通 过 其 
他 安全 工具 或 策略 来 消除 隐患 。 

应 用 安全 的 目的 是 要 保证 信息 用 户 的 真实 性 ， 信 息 数据 的 机 密 性 、 完 整 性 和 可 
用 性 ， 以 及 信息 用 户 和 信息 数据 的 可 审 性 ， 以 对 抗 假冒 、 信 息 窃取 、 数 据 算 改 、 越 
权 访 问 和 事后 否认 等 针对 信息 应 用 的 安全 威胁 。 

采用 安全 可 靠 和 相对 独立 的 应 用 安全 中 心 是 实现 应 用 安全 的 重要 一 环 。 

应 用 安全 中 心 可 以 为 应 用 系统 提供 安全 服务 ， 其 服务 模式 有 两 种 : 纵向 安全 服 
务 模 式 和 横向 安全 服务 模式 。 在 实现 方式 、 结 合 方式 和 安全 保证 等 方面 ， 横 向 安全 
服务 模式 明显 优 于 纵向 安全 服务 模式 。 采 用 横向 安全 服务 模式 ， 可 以 通过 统一 的 资 
源 命 名 ， 多 样 化 的 身份 认证 ， 安 全 的 分 级 管理 等 方式 来 完成 整套 安全 服务 的 提供 ， 
保证 应 用 层面 的 安全 。 

此 外 ， 在 应 用 系统 的 安全 性 之 上 ， 还 需要 通过 专业 的 安全 工具 来 不 断 地 发 现 漏 
洞 和 修补 漏洞 ， 以 进一步 提高 系统 的 安全 性 。 
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10.2 大 数据 系统 安全 


大 数据 的 安全 体系 ， 首 先 必 须要 遵循 一 般 的 安全 体系 的 层次 结构 ， 需 要 分 别 建 
立 物 理 安全 、 主 机 安全 、 网 络 安全 和 应 用 安全 这 几 部 分 安全 系统 ， 并 将 之 进行 有 机 
的 结合 ， 此 外 ， 大 数据 系统 安全 还 需要 根据 大 数据 的 体 量 巨 大 、 类 型 繁杂 、 处 理 快 
速 等 特性 ， 进 一 步 有 针对 性 地 强化 对 应 的 安全 要 求 ， 从 而 建立 起 来 一 整套 的 安全 体 
系 ( 见 图 10-2) 和 对 应 大 数据 的 解决 方案 。 


图 10-2 大 数据 安全 体系 的 结构 
下 面 ， 将 具体 描述 各 安全 系统 在 大 数据 环境 下 所 需要 建立 起 来 的 具体 方法 和 措施 。 


10.2.1 大 数据 的 物理 安全 


大 数据 的 物理 环境 ， 往 往 意味 着 其 机 房 会 设置 大 量 的 服务 器 ， 所 以 在 机 房 建设 
上 ， 不 仅 要 遵循 一 般 机 房 的 物理 安全 要 素 ， 还 需要 针对 服务 器 较 多 的 特点 ， 重 点 强 
化 对 大 批量 服务 器 的 摆 放 和 内 部 网 络 布线 的 规划 ， 防 止 出 现 部 分 地 区 数据 集中 度 高 
而 造成 的 安全 风险 。 

此 外 ， 还 需要 强化 内 部 人 员 的 门禁 和 监测 机 制 ， 全 面 地 控制 机 房 的 出 入 情况 ， 
限制 管理 运 维 人 员 的 访问 区 域 ， 防 止 因为 某 个 人 员 的 安全 失控 ， 导 致 整个 机 房 的 安 
全 出 现 漏洞 。 
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10.22 大 数据 的 主机 安全 


大 数据 本 身 因为 其 机 制 充 分 考虑 了 容错 性 ， 所 以 对 于 机 器 的 健壮 性 并 不 是 要 
求 的 很 高 ， 当 一 个 机 器 出 现 故障 的 时 候 ， 大 数据 集群 的 工作 并 不 会 受到 影响 ， 数 据 
会 在 其 他 机 器 的 备份 上 面 找 回 ， 正 在 运行 的 任务 也 会 被 分 配 到 其 他 机 器 上 面 继续 执 
行 。 所 以 服务 器 的 选择 ， 不 像 一 般 的 系统 那样 ， 对 服务 器 的 要 求 那么 高 ， 普 通 的 PC 
机 即 可 。 但 考虑 到 大 数据 的 性 能 和 安全 ， 仍 然 建议 采用 高 性 能 、 高 稳定 的 PC 服务 
器 ， 以 减少 数据 重 分 配 的 影响 ， 同 时 也 可 以 减轻 单个 机 器 频繁 宕 机 而 导致 性 能 的 下 
降 ， 从 而 可 能 导致 对 安全 系统 的 冲击 。 

安全 的 主机 系统 

系统 方面 ， 大 数据 的 组 件 大 部 分 都 是 采用 JAVA， 由 于 JAVA 虚拟 机 的 存在 ， 使 用 
主流 的 Linux 系 统 即 可 。 目 前 Linux 系 统 的 安全 性 和 稳定 性 已 经 得 到 了 多 年 的 验证 ， 使 
用 Linux 系 统 要 比 使 用 其 他 系统 更 加 安全 。 

更 加 卓越 的 补丁 管理 机 制 

在 微软 的 Windows 系 统 中 ， 自 动 更 新 程序 只 会 升级 那些 由 微软 公司 官方 所 提供 的 
组 件 。 而 第 三 方 的 应 用 程序 却 不 会 得 到 修补 。 而 在 Linux 系 统 中 ， 当 你 在 自动 更 新 系 
统 的 时 候 ， 它 将 同时 升级 系统 中 所 有 的 软件 。 这 样 的 设计 ， 极 大 地 提高 了 用 户 实时 
更 新 系统 的 积极 性 。 

更 加 健壮 的 默认 设置 

Linux 系 统 天 生 就 被 设计 成 一 个 多 用 户 的 操作 系统 。 因 此 ， 即 便 是 某 个 用 户 想 要 
进行 恶意 破坏 ， 底 层 系统 文件 依然 会 受到 保护 。 假 如 ， 在 非常 不 幸 的 情况 下 ， 有 任 
何 远程 的 恶意 代码 在 系统 中 被 执行 了 ， 它 所 带 来 的 危害 也 将 被 局 限 在 一 个 小 小 的 局 
部 之 中 。 

与 之 形成 鲜明 对 照 的 是 微软 的 Windows XP 系统 。 在 这 里 ， 用 户 会 默认 以 系统 管 
理 员 的 身份 登录 ， 而 在 系统 中 所 发 生 的 任何 损害 ， 都 会 迅速 蔓延 到 整个 系统 之 中 。 
微软 最 新 的 Windows Vista 系 统 让 用 户 在 默认 设置 下 以 受 限 用 户 的 身份 登录 ， 因 此 它 
要 比 自己 的 前 任 更 加 安全 一 点 。 

模块 化 设计 

Linux 系 统 采 用 的 是 模块 化 设计 。 这 表示 ， 如 果 不 需 要 的 话 ， 你 可 以 将 任何 一 个 
系统 组 件 删除 掉 。 由 此 而 带 来 的 一 个 好 处 是 ， 如 果 用 户 感觉 Linux 系 统 的 某 个 部 分 不 
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太 安 全 ， 他 就 可 以 移 除 掉 这 个 组 件 。 

更 棒 的 “ 零 日 攻击 (0-day attacks)” 防 御 工 具 

零 日 攻击 (0-day attacks， 指 的 是 在 软件 生产 厂商 发 布 针 对 漏洞 的 更 新 补丁 之 前 ， 
就 抢先 利用 该 漏洞 发 动 网 络 攻击 的 攻击 方式 ) 正 在 变 得 日 益 猩 狐 。 此 外 ， 一 项 调查 研 
究 也 显示 : 对 于 攻击 者 来 说 ， 他 们 只 需要 6 天 时 间 就 能 够 开发 出 针对 漏洞 的 恶意 攻击 
代码 ， 而 软件 生产 厂商 们 却 需要 花费 长 得 多 的 时 间 才 能 够 推出 相应 的 更 新 补丁 。 因 
此 ， 一 套 害 智 的 安全 策略 在 防御 零 日 攻击 方面 至 关 重 要 。 

目前 主流 的 Linux 发 行 版 本 ， 在 系统 中 都 默认 整合 了 Apparmor 或 者 SELinux， 它 
们 可 以 针对 各 种 类 型 的 远程 还 控 代码 攻 击 ， 为 系统 提供 细致 而 周全 的 保护 。 

强力 的 防毒 软件 

防毒 软件 ， 是 用 于 消除 电脑 病毒 、 特 洛 伊 木马 或 者 恶意 软件 等 计算 机 威胁 的 一 
类 软件 。 它 通常 会 集成 监控 识别 、 病 毒 扫描 清除 、 自 动 升级 病毒 库 和 主动 防御 等 功 
能 ， 是 计算 机 防御 系统 的 重要 组 成 部 分 。 

防毒 软件 是 可 以 对 病毒 、 木 马 等 一 切 已 知 的 对 计算 机 主机 有 危害 的 程序 代码 进 
行 清除 的 程序 工具 ， 主 要 任务 是 实时 监控 和 扫描 磁盘 。 

不 同 的 防毒 软件 在 实时 监控 上 有 所 差异 ， 比 如 有 的 杀毒 软件 在 内 存 里 划分 一 部 
分 空间 ， 将 计算 机 中 流 过 内 存 的 数据 与 杀毒 软件 自身 所 带 的 病毒 库 (包含 病毒 定义 ) 的 
特征 码 相 比 较 ， 以 判断 是 否 为 病毒 。 有 的 杀毒 软件 则 在 所 划分 到 的 内 存 空 间 里 ， 虚 
拟 执行 系统 或 用 户 提 交 的 程序 ， 根 据 其 行为 或 结果 作出 判断 。 

而 扫描 磁盘 的 方式 ， 则 和 上 面 提 到 的 实时 监控 的 第 一 种 工作 方式 类 似 ， 只 是 扫 
描 磁 盘 时 ， 杀 毒 软件 会 将 磁盘 上 所 有 的 文件 (或 者 用 户 自 定义 的 扫描 范围 内 的 文件 ) 做 
一 次 检查 。 

目前 大 数据 平台 在 服务 器 上 都 配备 了 第 三 方 的 专业 的 防毒 软件 ， 能 对 各 种 病毒 
木马 威胁 有 针对 性 地 进行 防御 ， 从 而 有 效 地 保障 主机 系统 的 安全 。 


10.23 ”大 数据 的 网 络 安全 


安全 的 防火 墙 
防火 墙 ， 是 一 种 位 于 内 部 网 络 与 外 部 网 络 之 间 的 网 络 安全 系统 。 一 项 信息 安全 
的 防护 系统 ， 依 照 特定 的 规则 ， 人 允许 或 是 限制 传输 的 数据 通过 。 
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防火 墙 实际 上 是 一 种 隔离 技术 ， 是 两 个 网 络 通信 时 执行 的 一 种 访问 控制 尺度 ， 
它 能 允许 合法 的 用 户 和 数据 进入 内 部 网 络 ， 也 能 够 阻止 掉 非 法 的 用 户 和 数据 ， 从 而 
最 大 限度 地 组 织 网 络 中 的 黑客 来 访问 你 的 网 络 。 

大 数据 平台 因为 存在 着 需要 访问 海量 数据 的 应 用 场景 ， 对 网 络 速度 要 求 很 高 ， 
所 以 采用 的 防火 墙 也 必须 具备 极 强 的 网 络 吞 吐 能 力 ， 同 时 ， 由 于 大 数据 本 身 的 价值 
量 参差 不 齐 ， 也 需要 防火 墙 能 够 根据 数据 价值 的 不 同 ， 采 取 不 同 级 别 的 更 为 细致 的 
防护 能 力 。 

安全 通道 

对 于 网 络 间 各 服务 组 件 的 通信 加 密 ， 目 前 大 数据 平台 普遍 采用 的 是 SSL 链 路 加 密 
机 制 。 

SSL 全 称 安全 套 接 层 协议 ( Secure Sockets Layer)， 是 一 种 互联 网 信息 加 密 传输 协 
议 ， 置 身 于 网 络 结构 体系 的 传输 层 和 应 用 层 之 间 ， 其 目的 是 为 网 络 节点 之 间 拱 建 一 
条 加 密 通 道 ， 建 立 SSL 连 接 保证 数据 在 传输 过 程 中 不 被 窃取 或 算 改 ， 确 保 机 密 信息 的 
保密 性 、 完 整 性 和 可 信 性 ，SSL 协 议 目前 已 成 为 国际 标准 。 

SSL 的 优势 主要 包括 : 

> 认证 用 户 和 服务 器 ， 确 保 数据 发 送 到 正确 的 客户 机 和 服务 器 ; 

> 加 密 数 据 以 防止 数据 中 途 被 窃取 ; 

> 维护 数据 的 完整 性 ， 确 保 数 据 在 传输 过 程 中 不 被 改变 。 

目前 大 数据 平台 对 于 内 部 各 服务 组 件 的 网 络 交互 中 ， 都 可 以 通过 配置 的 SSL 协 议 
对 网 络 链 路 进行 加 密 ， 以 保证 链 路 之 间 传 递 的 消息 不 会 被 明文 获取 ， 从 而 保证 网 络 
数据 的 安全 。 

KERBEROS 认 证 

KERBEROS 是 为 TCP/IP 网 络 系统 设计 的 可 信 的 第 三 方 网 络 认 证 协议 ， 其 设计 目 
标 是 通过 密 钥 系统 为 客户 端 和 服务 器 之 间 提 供 强大 的 认证 服务 。 它 提供 了 一 种 单 点 
登录 的 方法 。 比 如 我 们 一 般 会 在 一 个 网 络 中 有 着 不 同 的 服务 主机 ， 这 些 服 务 器 都 有 
认证 的 需求 。 很 自然 地 ， 不 可 能 让 每 个 服务 器 自己 实现 一 套 认证 系统 ， 而 是 提供 一 
个 中 心 认 证 服务 器 (KDC) 供 这 些 服务 器 使 用 。 而 且 ， 该 认证 系统 的 实现 是 不 依赖 于 主 
机 操作 系统 的 认证 的 ， 无 须 基 于 主机 地 址 的 信任 ， 也 不 要 求 网 络 上 所 有 主机 的 物理 
安全 ， 甚 至 假定 网 络 上 传递 的 数据 包 可 能 被 任意 地 读 取 、 修 改 和 插入 数据 。 

基础 系统 中 至 少 有 三 个 角色 : 认证 服务 器 ， 客 户 端 和 普通 服务 器 。 客 户 端 和 服 
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务 器 将 在 认证 服务 器 的 帮助 下 完成 相互 认证 。 其 认证 过 程 具 体 如 下 : 客户 端 向 认证 
服务 器 发 送 请 求 ， 要 求 得 到 某 服务 器 的 证 书 ， 然 后 认证 服务 器 的 响应 包含 这 些 用 客 
户 端 密 钥 加 密 的 证 书 。 

证 书 的 构成 为 : 

> 服务 器 “Ticket”; 

> 一 个 临时 加 密 密 钥 (又 称 为 会 话 密 钥 “sessionkey” ) 。 

客户 端 将 Ticket( 包 括 用 服务 器 密 钥 加 密 的 客户 机 身份 和 一 份 会 话 密 钥 的 拷贝 ) 传 
送 到 服务 器 上 。 会 话 密 钥 可 以 用 来 认证 客户 机 或 认证 服务 器 ， 也 可 用 来 为 通信 双方 
以 后 的 通信 提供 加 密 服 务 ， 或 通过 交换 独立 子 会 话 密 钥 为 通信 双方 提供 进一步 的 通 
信 加 密 服 务 。 

通过 引入 Kerberos 认 证 系统 ， 可 以 使 整个 大 数据 平台 的 网 络 安全 进一步 地 得 到 提 
升 ， 并 防止 非法 用 户 的 恶意 侵入 ， 保 证 网 络 内 部 服务 器 节点 都 是 可 信任 的 ， 同 时 对 
这 些 节点 的 访问 者 也 是 合法 可 信和 的 ， 从 而 最 终 达 到 整个 环境 每 个 环节 的 可 管 可 控 。 


10.24 ”大 数据 的 应 用 安全 


身份 认证 

目前 用 户 访问 大 数据 平台 的 方式 主要 是 使 用 浏览 器 方式 或 者 RPC 接 入 以 及 登录 
集群 节点 使 用 Shell 命 令 等 方式 来 操作 集群 ， 只 有 通过 认证 的 用 户 才能 访问 集群 和 操 
作 集 群 。 

(1) 大 数据 平台 提供 了 对 集群 节点 操作 、 维 护 功能 的 Web 操 作 界 面 ， 用 户 在 访问 
此 操作 界面 之 前 ， 会 有 登录 认证 过 程 ， 能 很 好 地 避免 未 授权 用 户 的 非法 访问 。 

(2) 目前 Hadoop 采 用 基于 Kerberos 和 令 牌 的 身份 认证 机 制 ， 能 很 好 地 起 到 对 用 户 
的 身份 进行 认证 的 作用 。 用 户 在 使 用 这 些 服务 组 件 之 前 ， 必 须 先进 行 用 户 认证 ， 认 
证 通过 后 才能 使 用 对 应 的 服务 。 

(3) 同时 我 们 的 大 数据 平台 各 服务 组 件 之 间 具 备 白 名 单 验证 功能 ， 即 大 数据 平台 
中 的 服务 组 件 内 外 部 的 任何 网 络 连 接 都 需要 进行 验证 和 判断 ， 如 果 其 IP 不 在 合法 的 
范围 内 ， 则 断 开 连 接 ， 从 而 保证 大 数据 平台 的 内 外 部 的 访问 的 安全 性 。 

(4) 平台 应 用 组 件 支持 命令 行 操作 ， 当 用 户 登 录 到 应 用 组 件 的 节点 上 使 用 应 用 组 件 
的 命令 之 前 ， 需 要 先进 行 用 户 认证 ， 认 证 通过 后 ， 才 能 使 用 应 用 组 件 提供 的 命令 。 
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访问 控制 

(1) 访问 控制 矩阵 

Hadoop 的 各 个 服务 组 件 ， 包 括 HDFS/HBASE/YARN 等 ， 对 于 用 户 的 访问 控制 ， 
都 是 基于 操作 系统 用 户 实现 的 一 个 和 POSIX 系 统 类 似 的 文件 和 目录 的 权限 模型 。 文 
件 、 目 录 乃 至 资源 等 对 其 所 有 者 、 同 组 的 其 他 用 户 以 及 所 有 其 他 用 户 分 别 有 着 不 同 
的 权限 。 

对 HDFS 文 件 系 统 而 言 ， 当 读 取 这 个 文件 时 需要 有 1 权限 ， 当 写 入 或 者 追加 到 文 
件 时 需要 有 w 权 限 。 对 目录 而 言 ， 当 列 出 目录 内 容 时 需要 具有 1 权限 ， 当 新 建 或 删除 
子 文件 或 子 目录 时 需要 有 w 权 限 。 

而 对 于 Yarn 来 说 ， 其 访问 控制 以 队列 作为 用 户 组 织 单元 ， 建 立 了 队列 和 操作 系 
统 用 户 及 用 户 组 之 间 的 映射 关系 。 因 此 基于 队列 的 用 户 权限 控制 ， 可 以 设置 哪些 用 
户 (组 ) 可 以 具有 提交 或 者 管理 job 的 权限 ， 并 且 管 理 员 可 以 动态 修改 队列 的 各 种 配置 
参数 ， 实 现在 线 集群 管理 。 

(2) 分 权 分 域 

在 用 户 访问 控制 的 基础 上 ， 进 一 步 采用 先进 的 分 权 分 域 管理 机 制 。 

这 里 的 分 权 是 指针 对 操作 权限 的 控制 ， 即 指 用 户 可 以 具体 执行 哪些 操作 ;分 域 
则 是 指针 对 访问 范围 的 控制 ， 即 指 用 户 可 以 访问 的 区 域 包括 哪些 资源 。 

分 权 分 域 可 以 根据 需要 将 不 同 的 操作 权限 和 管理 范围 等 作为 资源 统一 调度 ， 根 
据 预 先 设 定好 的 安全 策略 分 配给 有 不 同 需求 的 用 户 ， 并 且 要 遵循 最 小 授权 原则 ， 以 
便 有 效 地 防止 敏感 信息 泄露 。 

(3) 应 用 隔离 

由 于 大 数据 平台 往往 需要 支撑 多 个 应 用 项 目 系 统 ， 在 安全 生产 上 需要 对 各 级 资 
源 预先 规划 ， 来 满足 跨 部 门 跨 应 用 对 大 数据 平台 的 数据 访问 请 求 ， 包 括 应 用 权限 、 
应 用 目录 、 应 用 程序 部 署 ( 见 图 10-3)。 

比如 在 中 信 银 行 的 项 目 中 ， 每 个 应 用 项 目 都 创建 用 户 及 用 户 组 ， 同 时 在 文件 系 
统 中 规划 并 分 配 一 个 应 用 目录 ， 需 要 对 目录 进行 权限 配置 。 这 样 应 用 程序 以 自己 的 
用 户 身份 提交 任务 访问 分 布 式 文件 系统 ， 不 同 的 文件 目录 对 不 同 用 户 有 不 同 的 读 写 
权限 ， 通 过 这 种 方式 进行 数据 的 隔离 和 共享 。 各 个 应 用 在 自身 所 属 的 目录 下 设置 子 
目录 ， 以 及 数据 计算 所 需 的 输入 和 输出 的 目录 名 称 等 。 
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HDFS APP 1(drwxrwxr--) 
Input(drwxrwxr--) 


Output(drwxrwxr--) 
Tmp(drwarwx-—)—~ st Fd rea 
APP 2(drwxrwx---) 

Input(drwxrwx---) 

Output(drwxrwx---) 

Tmp(drwxrwx--- 

[Trew scheme 
APP n(drwxrwx-w-) 

Input(drwxrwx-w-) 

Output(drwxrwx-w-) 


Tmp(drwxrwx---) 
eres 其 他 应 用 可 写 入 
图 10-3 ”多 个 应 用 项 目 系统 的 目录 


误 操作 恢复 

我 们 经 常会 听 说 ， 某 人 因为 一 次 不 小 心 的 操作 ， 或 者 一 次 不 经 意 的 错误 点 击 ， 
而 导致 重要 数据 被 删除 无 法 找 回 ， 悔 恨 不 已 。 客 观 地 说 ， 只 要 有 人 为 操作 的 地 方 ， 
就 会 存在 误 删除 的 问题 ， 而 大 数据 平台 由 于 数据 规模 很 大 ， 一 旦 发 生 了 不 应 该 发 生 
的 删除 ， 会 导致 很 大 的 损失 ， 所 以 相 比 其 他 系统 平台 ， 需 要 对 误 删 除 问题 更 加 予以 
重视 ， 确 保 当 误 删除 问题 出 现 的 时 候 ， 能 尽 可 能 地 对 数据 加 以 恢复 。 

目前 大 数据 平台 主要 采用 回收 站 或 者 快照 等 方式 来 防止 误 删 除 的 发 生 。 

回收 站 

和 Linux 系 统 的 回收 站 设计 一 样 ， 大 数据 平台 的 分 布 式 文件 系统 HDFS 会 为 每 一 
个 用 户 创 建 一 个 回收 站 目录 : /user/ 用 户 名 /.Trash/， 每 一 个 被 用 户 通过 命令 行 删除 的 
文件 /目录 ， 会 被 保存 在 系统 回收 站 中 ， 如 果 系 统 回收 站 中 的 文件 /目录 在 一 段 时 间 之 
后 没有 被 用 户 恢复 的 话 ， 系 统 就 会 自动 地 把 这 个 文件 /目录 彻底 删除 。 这 样 一 来 ， 即 
使 用 户 不 小 心 删除 了 重要 的 数据 ， 也 可 以 立刻 在 回收 站 里 面 找 回 这 些 数据 ， 并 通过 
指令 进行 数据 的 恢复 。 

快照 

HDFS 和 HBase 等 大 数据 服务 组 件 都 提供 了 快照 Snapshot 功 能 。 

Snapshot 提 供 一 种 方式 把 当前 系统 状态 持久 化 到 文件 系统 中 ， 这 样 一 来 ， 如 果 系 
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统 升级 后 出 现 了 数据 丢失 或 者 损坏 ， 便 有 机 会 进行 恢复 操作 ， 将 数据 恢复 到 系统 快 
照 的 那个 时 间 点 。 

Snapshot 创 建文 件 的 “逻辑 ”副本 ， 也 就 是 当前 目录 树 的 链接 的 副本 ， 因 此 ， 快 
照 创 建 的 速度 很 快 ， 资 源 开销 也 较 小 ， 适 合用 于 作为 常规 备份 手段 ， 以 防止 由 于 误 
删除 引起 的 数据 丢失 。 

所 以 ， 只 要 能 够 为 重要 数据 定时 地 进行 备份 ， 一 旦 发 生 了 误 删 除 ， 就 可 以 找到 
误 删除 发 生前 最 近 的 那 次 快照 ， 通 过 此 快照 把 数据 找 回 ， 这 样 就 可 以 有 效 地 防止 误 
删除 带 来 的 损失 。 

数据 加 密 

数据 加 密 ， 是 为 提高 系统 和 数据 的 安全 性 和 保密 性 ， 防 止 内 部 数据 被 外 部 非法 
获取 而 采用 的 一 种 主要 的 技术 手段 。 

数据 加 密 的 基本 过 程 就 是 对 原来 是 明文 的 文件 或 者 数据 按照 某 种 算法 进行 处 
理 ， 使 其 成 为 不 可 读 的 一 段 代 码 ， 通 常 称 为 “ 密 文 ”。 只 有 在 对 这 段 密 文 根 据 相 应 
的 密 钥 进行 解密 之 后 ， 才 能 看 到 这 段 密 文 的 本 来 数据 面貌 。 

数据 加 密 ， 可 以 防止 在 存储 环节 上 的 数据 窃取 ， 保 护 数据 不 被 非法 访问 。 目 
前 数据 存储 加 密 技 术 一 般 分 为 密 文 存储 和 存 取 控制 两 种 。 前 者 一 般 是 通过 加 密 算法 
转换 、 附 加 密码 、 加 密 模块 等 方法 实现 ; 后 者 则 是 对 用 户 资格 、 权 限 加 以 审查 和 限 
制 ， 防 止 非法 用 户 存 取 数据 或 合法 用 户 越权 存 取 数 据 。 

目前 大 数据 平台 对 于 数据 加 密 采 用 的 是 透明 的 服务 端 加 密 方法 ， 即 通过 在 服务 
端 对 数据 进行 加 密 ， 且 这 个 加 密 对 外 是 透明 不 可 见 的 。 用 户 在 使 用 的 时 候 ， 可 以 正 
常 地 输入 明文 数据 ， 这 个 数据 经 过 服务 端的 算法 加 密 后 就 以 密 文 的 方式 保存 下 来 ， 
当 用 户 需 要 再 次 读 取 的 时 候 ， 服 务 端 再 进行 相应 的 解密 ， 并 把 解密 后 的 明文 数据 返 
回 给 用 户 。 整 个 过 程 用 户 不 需要 关心 加 密 的 算法 和 形式 ， 同 时 数据 在 存储 的 过 程 中 
也 是 安全 可 靠 的 ， 这 样 既 保 证 了 对 外 服务 的 可 操作 性 ， 又 提供 了 足够 安全 的 数据 存 
储 保证 。 

日 志 审 计 

日 志 审 计 通 过 集中 采集 系统 中 的 各 种 日 志 ， 包 括 系 统 安全 事件 、 用 户 访问 记 
录 、 系 统 运行 日 志 、 系 统 运行 状态 等 ， 经 过 规范 化 、 过 滤 、 归 并 和 告警 分 析 等 处 理 
后 ， 以 统一 格式 的 日 志 形 式 进行 集中 存储 和 管理 ， 结 合 丰富 的 日 志 统计 汇总 及 关联 
分 析 功能 ， 实 现 对 整个 系统 日 志 的 全 面 审计 。 
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大 数据 平台 的 安全 审计 系统 主要 用 于 监视 并 记录 对 Hadoop 系 统 的 各 类 操作 行 
为 ， 实 时 地 、 智 能 地 分 析 和 统计 ， 并 将 结果 记 入 审计 数据 库 中 以 便 日 后 进行 查询 、 
分 析 、 过 滤 ， 实 现 对 Hadoop 系 统 的 用 户 操作 的 监控 和 审计 。 一 方面 ， 它 可 以 让 管理 
员 监控 和 审计 用 户 对 Hadoop 系 统 中 的 每 个 服务 组 件 的 操作 和 访问 ， 及 时 地 发 现 系统 
异常 事件 ， 还 可 以 根据 设置 的 规则 ， 智 能 地 判断 出 违规 操作 的 行为 ， 并 对 违规 行为 
进行 记录 、 报 警 ， 有 效 地 弥补 现 有 Hadoop 系 统 在 安全 使 用 上 的 不 足 ， 为 整个 系统 的 
安全 运行 提供 了 有 力 保 障 。 

另 一 方面 ， 通 过 事后 分 析 和 丰富 的 报表 系统 ， 管 理 员 可 以 方便 高 效 地 进行 有 针 
对 性 的 安全 审计 。 尤 其 在 遇 到 特殊 安全 事件 和 系统 故障 的 时 候 ， 日 志 审计 可 以 帮助 
管理 员 进 行 故障 快速 定位 ， 并 提供 客观 依据 进行 追查 和 恢复 。 

目前 Hadoop 各 组 件 在 进行 各 种 操作 或 者 处 理 的 时 候 ， 都 会 记录 非常 详细 的 日 
志 ， 所 以 通过 对 这 些 日 志 进行 审计 ， 就 可 以 完成 对 整个 系统 的 安全 审计 工作 。 

容 灾 备份 

容 灾 备份 系统 是 指 在 相隔 较 远 的 异地 ， 建 立 两 套 或 多 套 功 能 相同 的 系统 ， 互 相 
之 间 可 以 进行 健康 状态 监视 和 功能 切换 ， 当 一 处 系统 因 意外 (如 火灾 、 地 震 等 ) 停 止 工 
作 时 ， 整 个 应 用 系统 可 以 切换 到 另 一 处 ， 使 得 该 系统 功能 可 以 继续 正常 工作 。 容 灾 
技术 是 系统 的 高 可 用 性 技术 的 一 个 组 成 部 分 ， 容 灾 系 统 更 加 强调 处 理 外 界 环境 对 系 
统 的 影响 ， 特 别 是 灾难 性 事件 对 整个 节点 的 影响 ， 提 供 节点 级 别 的 系统 恢复 功能 。 

根据 容 灾 备 份 对 系统 的 保护 程度 来 分 ， 可 以 将 容 灾 系统 分 为 数据 容 灾 和 应 用 
容 灾 。 

所 谓 数据 容 灾 ， 就 是 指 建立 一 个 异地 的 数据 系统 ， 该 系统 是 本 地 关键 应 用 数据 
的 一 个 可 用 复制 。 在 本 地 数据 及 整个 应 用 系统 出 现 灾难 时 ， 系 统 至 少 在 异地 保存 一 
份 可 用 的 关键 业务 的 数据 。 该 数据 可 以 是 与 本 地 生产 数据 的 完全 实时 复制 ， 也 可 
以 比 本 地 数据 略微 落后 ， 但 一 定 是 可 用 的 。 采 用 的 主要 技术 是 数据 备份 和 数据 复制 
技术 。 

数据 容 灾 ， 又 称 为 异地 数据 复制 技术 ， 按 照 其 实现 的 技术 方式 来 说 ， 主 要 可 以 
分 为 同步 传输 方式 和 异步 传输 方式 (各 厂商 在 技术 用 语 上 可 能 有 所 不 同 )， 另 外 ， 也 有 
如 “ 半 同 步 ” 这 样 的 方式 。 半 同步 传输 方式 基本 与 同步 传输 方式 相同 ， 只 是 在 Read 
占 VO 比 重 比 较 大 时 ， 相 对 同步 传输 方式 ， 可 以 略微 提高 1O 的 速度 。 而 根据 容 灾 的 距 
离 ， 数 据 容 灾 又 可 以 分 成 远程 数据 容 灾 和 近 程 数据 容 灾 方式 。 
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目前 大 数据 平台 采用 的 分 布 式 文件 系统 ， 可 以 对 存储 的 文件 通过 多 副本 进行 备 
份 ， 能 有 效 地 完成 数据 的 备份 保护 。 同 时 ， 通 过 定时 的 异地 备份 、 应 用 双 写 和 数据 
库 直接 复制 等 方式 进行 数据 的 异地 容 灾 备 份 ， 并 定期 对 数据 进行 检查 ， 以 便 在 遇 到 
灾难 时 能 够 对 整个 系统 进行 完全 恢复 。 

应 用 容 灾 ， 是 在 数据 容 灾 的 基础 上 ， 在 异地 建立 一 套 完整 的 与 本 地 生产 系统 相 
当 的 备份 应 用 系统 (可 以 是 互 为 备份 )。 建 立 这 样 一 个 系统 是 相对 比较 复杂 的 ， 不 仅 需 
要 一 份 可 用 的 数据 复制 ， 还 要 有 包括 网 络 、 主 机 、 应 用 ， 甚 至 IP 等 资源 ， 以 及 各 资 
源 之 间 的 良好 协调 。 主 要 的 技术 包括 负载 均衡 、 集 群 技术 。 数 据 容 灾 是 应 用 容 灾 的 
技术 ， 应 用 容 灾 是 数据 容 灾 的 目标 。 

在 选择 容 灾 系统 的 构造 时 ， 还 要 建立 多 层次 的 广域网 络 故障 切换 机 制 。 本 地 的 
高 可 用 系统 指 在 多 个 服务 器 运行 一 个 或 多 个 应 用 的 情况 下 ， 应 确保 任意 服务 器 出 现 
任何 故障 时 ， 其 运行 的 应 用 不 能 中 断 ， 应 用 程序 和 系统 应 能 迅速 切换 到 其 他 服务 器 
上 运行 ， 即 本 地 系统 集群 和 热 备份 。 

在 远程 的 容 灾 系统 中 ， 要 实现 完整 的 应 用 容 灾 ， 既 要 包含 本 地 系统 的 安全 机 
制 、 远 程 的 数据 复制 机 制 ， 还 应 具有 广域网 范围 的 远程 故障 切换 能 力 和 故障 诊断 能 
力 。 也 就 是 说 ， 一 旦 故障 发 生 ， 系 统 要 有 强大 的 故障 诊断 和 切换 策略 制订 机 制 ， 确 
保 快速 的 反应 和 迅速 的 业务 接管 。 实 际 上 ， 广 域 网 范围 的 高 可 用 能 力 与 本 地 系统 的 
高 可 用 能 力 应 形成 一 个 整体 ， 实 现 多 级 的 故障 切换 和 恢复 机 制 ， 确 保 系 统 在 各 个 范 
围 的 可 靠 和 安全 。 

目前 大 数据 平台 对 整个 集群 的 服务 ， 可 以 采用 主 备 双 机 保护 ， 来 应 对 可 能 的 异 
常 中 断 ， 做 到 尽 可 能 的 无 颖 切换， 保证 对 外 提供 的 服务 不 中 断 。 

安全 监控 中 心 

大 数据 平台 有 着 各 种 各 样 的 服务 组 件 ， 这 些 服 务 组 件 又 因为 其 对 外 提供 的 功能 
的 不 同 而 存在 着 显著 的 差异 性 ， 如 果 要 针对 每 个 服务 组 件 单独 地 进行 监控 和 观察 ， 不 
仅 从 外 在 来 看 不 够 统一 ， 还 可 能 导致 端口 冲突 、 接 口 复杂 和 影响 性 能 等 多 个 问题 。 

所 以 需要 有 一 个 统一 的 安全 监控 中 心 ， 对 这 些 服务 组 件 进行 统一 的 、 实 时 的 监 
控 ， 以 便 管理 维护 人 员 可 以 对 各 种 大 数据 平台 的 服务 的 运行 情况 进行 监控 和 观察 ， 
智能 地 判断 出 违规 操作 的 行为 ， 并 对 违规 行为 进行 记录 、 报 警 ， 以 更 好 地 提高 大 数 
据 平台 的 安全 性 ， 为 整个 系统 的 安全 运行 提供 强 有 力 的 保障 。 
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10.25 ”大 数据 领域 安全 解决 方案 


通过 上 面 对 每 个 安全 系统 的 描述 ， 可 以 看 出 在 大 数据 时 代 ， 在 物理 安全 和 主机 
安全 方面 的 要 求 和 标准 ， 有 相当 一 部 分 是 共通 的 。 所 以 我 们 在 构建 大 数据 领域 的 安 
全 体系 的 时 候 ， 可 以 适当 地 把 这 部 分 的 优先 级 降低 ， 通 过 购买 专业 的 安全 设备 或 者 
复 用 已 有 的 安全 建设 标准 即 可 满足 要 求 。 同 时 ， 应 该 将 主要 精力 投入 到 网 络 和 应 用 
安全 之 上 。 

网 络 安全 和 应 用 安全 的 关系 图 如 图 10-4 所 示 。 


理 用 户 


图 10-4 ”网 络 安全 和 应 用 安全 的 关系 图 

从 图 10-4 中 可 以 看 出 ， 防 火 墙 作为 内 部 网 络 和 外 部 网 络 环境 的 分 界 点 ， 同 时 也 
是 网 络 安全 和 应 用 安全 的 关键 ， 在 整个 网 络 安全 中 处 于 非常 核心 的 地 位 。 在 实际 网 
络 部 署 的 时 候 ， 需 要 有 针对 性 地 选用 高 稳定 性 和 可 靠 性 的 防火 墙 ， 并 对 来 自 各 种 用 
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户 的 访问 指定 有 效 的 保护 和 过 滤 规 则 。 通 过 防火 墙 ， 可 以 基本 杜绝 外 部 的 网 络 攻 
击 ， 屏 项 大 量 的 异常 和 宛 余 访 问 ， 减 轻 内 部 数据 环境 的 压力 ， 从 而 提升 整个 系统 
的 安全 性 。 

此 外 ， 从 图 中 还 可 以 看 出 ， 各 服务 器 和 交换 机 的 网 络 连接 非常 多 ， 可 见 大 数据 
平台 对 于 网 络 的 依赖 性 非常 大 ， 海 量 数据 需要 在 网 络 间 传输 ， 所 以 需要 重视 对 各 服 
务 节点 的 网 络 验证 ， 防 止 非法 用 户 利用 未 授权 的 网 络 接 入 来 获取 重要 的 数据 。 目 前 
大 数据 平台 创造 性 地 提出 了 网 络 白 名 单 功能 ， 可 以 对 所 有 集群 内 的 服务 节点 和 对 这 
些 节点 的 应 用 层面 的 访问 接 入 进行 认证 和 限制 ， 这 样 就 可 以 保证 防火 墙 内 外 的 服务 
器 都 必须 满足 合法 性 检查 才能 接 入 ， 有 效 地 保证 各 网 络 节点 的 安全 ， 从 而 更 好 地 提 
供 对 大 数据 集群 环境 的 稳定 访问 。 

同时 ， 由 于 在 大 数据 平台 上 会 存在 各 种 业务 应 用 同时 运行 的 情况 ， 比 如 关系 图 
中 的 内 部 用 户 ， 管 理 用 户 或 者 来 自 外 部 因特网 的 数据 访问 。 由 于 这 些 用 户 的 访问 可 
能 有 着 不 同 的 目的 ， 其 行为 会 产生 不 同 的 后 果 ， 所 以 一 方面 需要 对 这 些 用 户 的 访问 
通过 鉴 权 认证 和 权限 控制 来 保证 其 访问 的 合法 性 ， 还 需要 加 强 对 这 些 应 用 用 户 的 行 
为 之 间 的 隔离 ， 以 防止 各 应 用 之 间 的 相互 干扰 ， 并 通过 数据 加 密 、 日 志 审计 等 方式 
对 数据 安全 进行 加 固 ， 以 及 对 用 户 的 行为 进行 跟踪 和 回溯 。 

最 后 ， 也 是 最 重要 的 ， 就 是 要 形成 定期 的 备份 的 机 制 ， 并 建立 一 整套 远程 容 灾 
建设 方案 。 目 前 世界 上 大 多 数 的 数据 中 心 ， 都 是 对 外 提供 7X24 小 时 不 间断 的 服务 ， 
所 以 使 用 高 度 可 用 的 自动 化 技术 和 统一 的 灾难 恢复 测试 ， 企 业 才 可 以 放心 地 处 理 可 
能 出 现 的 任何 问题 。 

但 是 讽刺 的 是 ， 虽 然 大 家 一 提 到 容 灾 备 份 都 会 说 这 是 很 值得 关注 的 问题 ， 但 是 
根据 调查 显示 ， 大 多 数 公 司 并 没有 对 自己 的 系统 做 好 充足 的 容 灾 准备 ， 甚 至 有 的 公 
司 明明 遭受 过 数据 损失 ， 仍 然 没有 部 署 现 代 化 的 容 灾 恢复 解决 方案 。 说 到 底 ， 还 是 
对 突 发 事件 或 灾难 的 重视 程度 不 够 ， 同 时 总 是 存在 侥幸 心理 。 所 以 ， 必 须 认识 到 容 
灾 备 份 作为 数据 安全 建设 的 最 后 一 道 防线 的 重要 性 和 人 迫切 性 ， 只 有 这 样 ， 才 能 在 安 
全 系统 被 某 个 突 发 情况 改变 的 时 候 ， 更 快 地 恢复 数据 和 功能 ， 从 而 对 外 提供 一 个 真 
正安 全 稳定 运行 的 大 数据 平台 。 

目前 ， 上 面 提 到 的 这 一 整套 大 数据 平台 安全 解决 方案 ， 已 经 在 平台 中 有 序 地 部 
署 起 来 ， 从 目前 多 个 项 目的 上 线 运 行情 况 来 看 ， 安 全 方案 能 够 很 好 地 提供 整个 平台 
的 安全 保障 ， 组 成 保卫 大 数据 的 牢固 防线 。 当 然 ， 任 何 时 候 也 不 能 忽视 每 个 人 在 安 
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全 中 的 重要 程度 ， 对 于 参与 到 系统 管理 维护 中 的 人 员 ， 需 要 加 强 安全 规章 方面 的 宣 
传 ， 从 而 建立 立体 化 的 安全 环境 ， 全 面 维系 好 系统 的 安全 生产 。 


10.3 ”要 点 回顾 


本 章 主要 介绍 了 大 数据 安全 体系 ， 包 含 大 数据 的 系统 安全 和 大 数据 上 层 应 用 的 
安全 。 首 先 从 一 般 的 安全 体系 开始 说 起 ， 主 要 包括 物理 安全 、 主 机 安全 、 网 络 安全 
和 应 用 安全 等 方面 ， 让 大 家 对 安全 体系 的 概念 有 系统 的 了 解 。 然 后 ， 针 对 大 数据 系 
统 所 特有 的 体 量 巨 大 、 类 型 繁杂 、 处 理 快速 等 特性 进一步 介绍 了 大 数据 的 系统 安全 
解决 方案 。 最 后 ， 从 大 数据 上 层 应 用 的 层面 介绍 如 何 从 身份 认证 、 访 问 控 制 、 数 据 
加 密 、 数 据 安全 、 容 灾 备 份 和 安全 监控 等 方面 保障 大 数据 安全 。 
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11.1 数据 管理 的 范围 和 定义 


传统 意义 上 数据 管理 是 利用 计算 机 硬件 和 软件 技术 对 数据 进行 有 效 的 收集 、 存 
储 、 处 理 和 应 用 的 过 程 ， 其 目的 在 于 充分 有 效 地 发 挥 数据 的 作用 。 对 关系 型 数据 库 
而 言 ， 因 为 处 理 数据 的 规模 较 小 、 结 构 化 单一 ， 数 据 库 本 身 已经 具备 其 基本 的 管理 
能 力 。 

从 传统 的 数据 管理 演进 到 大 数据 时 代 的 数据 管理 ， 看 似 只 是 一 个 简单 的 技术 演 
进 ， 但 细 考 究 不 难 发 现 两 者 有 着 本 质 上 的 差别 。 大 数据 时 代 ， 一 个 管理 性 平台 框架 
不 但 要 包括 传统 意义 的 数据 管理 功能 ， 还 需要 包含 诸多 复杂 的 开源 组 件 ， 尤 其 是 开 
源 大 数据 组 件 ( 见 前 面 章节 的 描述 ) 的 集成 ， 因 此 在 大 数据 时 代 ， 集 群 自动 化 安装 部 
署 、 中 心 化 管理 、 集 群 监控 、 集 群 告警 、 集 群 安全 等 也 提 到 日 程 上 来 。 

大 数据 的 出 现 必 将 颠覆 传统 的 数据 管理 方式 ， 大 数据 时 代 不 仅 要 提供 系统 化 的 
基础 环境 管理 能 力 ， 而 且 在 自动 化 运 维 、 可 视 化 管理 方面 也 是 一 个 大 的 挑战 。 从 运 
维 的 角度 来 说 ， 传 统 的 数据 管理 运 维 工作 通常 面 对 几 十 或 者 上 百 台 的 服务 器 ， 规 模 
不 会 太 大 ， 而 且 因为 应 用 相对 简单 ， 所 以 每 台 服 务 器 都 是 一 个 独立 的 节点 ， 很 少 需 
要 关注 不 同 节点 之 间 的 资源 调度 等 问题 。 而 在 大 数据 时 代 基 于 分 布 式 部 署 的 大 规模 
集群 中 ， 数 据 管理 运 维 则 完全 不 同 : 首先 是 规模 上 要 面 对 成 百 上 千 的 节点 ， 量 上 有 
了 极 大 的 提升 ， 其 次 在 分 布 式 部 署 中 基础 资源 (存储 、CPU、 内 存 、 网 络 等 ) 的 调度 、 
调 优 、 监 控 都 将 是 重 中 之 重 ， 而 这 些 都 需要 非常 完善 的 可 视 化 管理 ， 最 后 ， 大 数据 
的 数据 管理 还 要 考虑 数据 的 导入 、 查 询 、 分 析 、 导 出 、 存 储 、 计 算 等 数据 仓库 相关 
的 技术 支持 。 

根据 大 数据 平台 以 及 基于 该 平台 的 大 数据 产品 ( 即 被 管理 对 象 ) 的 情况 ， 我 们 将 管 
理 功能 也 分 为 几 类 ( 见 图 11-1)， 分 别 为 公共 管理 组 件 、 基 础 设施 管理 组 件 、 大 数据 集 
群 管理 组 件 和 版 本 管理 组 件 。 

> 公共 管理 组 件 : 包含 安全 ， 上 日 志 ，license 管 理 ， 拓 扑 ， 告 警 ， 性 能 和 管理 系 

统 自 身 的 安装 升级 是 必 选 功能 组 件 。 
> 基础 设施 管理 组 件 : 主要 进行 IT 设备 管理 ， 并 利用 公共 管理 组 件 的 告警 、 性 
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能 、 拓 扑 进行 展示 。 
> 大 数据 集群 管理 组 件 : 主要 负责 大 数据 组 件 的 分 发 ， 服 务 调度 和 集群 监控 。 
> 版 本 管理 组 件 : 主要 负责 业务 版 本 的 分 发 ， 升 级 ， 进 程 调度 ， 备 份 恢复 。 


应 用 管理 子 系统 
功能 组 件 管理 子 系统 版 本 分 发 
版 本 管理 组 件 进程 调度 
备份 恢复 
i 组 件 分 发 
大 数据 集群 管理 组 件 服务 调度 
统 集群 监控 
入 基础 设置 管理 组 件 设备 管理 
告 

拓扑 

性 能 

公共 管理 组 件 安全 

日 志 
License 

安装 


图 11-1 大 数据 管理 系统 功能 细 分 项 


目前 业界 ， 无 论 是 开源 社区 提供 的 版 本 能 力 ， 还 是 各 厂商 自 研 的 管理 系统 ， 基 
本 上 都 是 围绕 以 上 功能 范围 进行 拓展 。 


11.2 开源 软件 的 管理 能 力 


11.2.1 Hortonworks 的 管理 架构 
Hortonworks 直 接 使 用 Ambari 开 源 管理 工具 。Ambari 是 一 款 100% 开 源 的 ， 基 于 
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Web 的 Hadoop 分 布 式 集群 配置 管理 工具 ， 它 简化 了 Hadoop 集 群 的 安装 、 初 始 化 、 配 


置 。 支 持 Apache Hadoop 集 群 的 部 署 、 管 理 和 监控 ， 其 系统 架构 图 如 图 11-2 所 示 。 


{Dita Movement 


+ App Jeb Management 
[1)) essential Hedoop Projects Aes 


11-2 Hortonworks 系统 架构 图 


Ambari 充 分 利用 一 些 已 有 的 优秀 开源 软件 ， 巧 妙 地 把 它们 结合 起 来 ， 使 其 在 分 
布 式 环境 中 做 到 了 集群 式 的 服务 管理 能 力 、 监 控 能 力 、 展 示 能 力 ， 主 要 的 管理 有 以 


下 特点 : 
> 安装 向 导 简化 了 集群 部 署 ; 


> 为 部 署 后 的 集群 预先 配置 好 了 关键 运 维 指标 ， 所 以 可 以 直接 查看 Hadoop 


Core(HDFS 和 MapReduce) 及 相关 组 件 (如 HBase、Hive 和 HCatalog) 的 健康 状态 ; 
支持 作业 与 任务 执行 的 可 视 化 与 分 析 ; 

通过 一 个 完整 的 REST ful API 把 监控 信息 暴露 出 来 ， 集 成 了 现 有 的 运 维 工具 ; 
用 户 界面 非常 直观 ， 用 户 可 以 轻松 有 效 地 监控 集群 ， 如 图 11-3 所 示 ; 


vVvvV Vv 


Ambari 使 用 Ganglia 收 集 度量 指标 ， 用 Nagios 支 持 系统 报警 ， 当 需要 引起 管理 


员 的 关注 时 (比如 ， 节 点 停机 或 磁盘 剩余 空间 不 足 等 问题 )， 系 统 将 会 自动 向 


其 发 送 邮件 。 


此 外 ，Ambari 可 以 安装 基于 Kerberos 的 Hadoop 集 群 ， 以 此 实现 对 Hadoop 安全 的 
支持 ， 提 供 了 基于 角色 的 用 户 认 证 、 授 权 和 审计 功能 ， 并 为 用 户 管理 集成 了 LDAP 和 


Active 。 
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ae : = 
Ambari 的 基本 运行 界面 如 图 11-3 所 示 。 
© HDFs Metrics * Heatmaps Config History 
a 
ae HWS bisk usage DataNodes Live HOFS Links Memory Usage Network Usage 
ote a 
ing 1 11 ‘Secondary NameNode 
© ogos 1 DataNodes 
© Gangla ez) | | 一 一 一 
这 [es re a 
A Hose cmu Usage GlusterLomd NameNode Heap NameNode RPC NameNode CPU Wo 
ae ie & 
2 sqoop 
a i 02% 

zi 14% 0.25 ms 
© Zookeeper 
© Faton 
A Storm @ NameNode Uptime HBase Master Heap: HBase Links HBase Ave Load HBase Master Uptime 
A Flume ‘No Active Master 
Q Sider 15.5 hr 1 RegionServers 
A Karke @ = 

iz 

Actions: 


图 11-3 Ambari 的 用 户 界 面 效 果 图 


11.2.2 ”Cloudera 的 管理 架构 


Hadoop 是 一 个 开源 项 目 ， 所 以 很 多 公司 在 这 个 基础 上 进行 商业 化 ， 在 Hadoop 生 
态 系统 中 ， 规 模 最 大 、 知 名 度 最 高 的 公司 是 Cloudera， 它 对 Hadoop 做 了 相应 的 改变 。 
我 们 将 Cloudera 公 司 的 发 行 版 称 为 CDH。 
Cloudera Manager 用 于 管理 CDH4 集 群 ， 可 进行 分 布 式 集群 各 个 节点 的 安装 、 服 
务 配 置 、 状 态 查 看 、 节 点 主 备件 的 切换 、 角 色 迁 移 等 。 与 Hortonwork 一 样 ， 其 也 提供 了 
web 界 面 ， 提 高 了 Hadoop 配 置 可 视 化 能 力 ， 减 少 了 集群 参数 设置 的 复杂 度 。 
CDH 的 Manager 分 为 Express 版 本 和 Enterprise 版 本 ， 主 要 有 以 下 四 类 能 力 。 
> 基本 管理 功能 : 快速 部 署 、 配 置 ， 集 中 数据 的 处 理 ; 数据 节点 的 切换 、 状 态 
查询 等 。 
> 监控 和 操作 维护 功能 : 集中 监控 集群 的 心跳 、 状 态 、 性 能 指标 ， 以 及 告警 的 
上 报 ， 如 图 11-4 所 示 的 界面 基本 包含 了 心跳 、 状 态 、 告 警 、 性 能 四 大 块 。 
> 常规 诊断 能 力 : 基本 的 状态 异常 查看 ， 报 表 给 出 。 
> 集成 能 力 : 作为 企业 级 管理 工具 ， 具 备 SNMP、SMTP 等 北向 接 入 能 力 ， 并 提 
供 了 相关 的 二 次 开发 API。 
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主页 ws insfuunsCH miensED 和 hases 


an 
© Cloudera Quickstart 3 ae 20 1 时 2 


图 11-4 CDH-Manager 的 Web 界 面 布局 效果 图 
其 中 Express 版 本 和 Enterprise 版 本 的 功能 对 比如 图 11-5 所 示 。 


Cloudera Product Comparison 


ata Hub 
Edition 


ensing Term 


100% Open Source Data Platform, powered by Apache Hadoop (COH) 


a ~ ~ v 
sployment end Configurat ¥ ~ ~ ~ 
Wanegomont v “~ v v 
Sorvice and Host Monitoring ¥ v v v 
Security Management v ~ v v 
Diagnoses (09 Seach, Events. and ww v 
Extonslbllity and APIs ¥ ¥ vv bd 
Rolling Updatoc/Restats v v ¥ 
AD Kerbores Iniogratlon v v ¥ 
NMP Support v v v 
DAP Integrat v v v 
Configuration History and Ralibacks v v v 
Jperational Reports v v v 
Scheduled Diagnestics v v v 
Backup & Disaster Recov ¥ ¥ ¥ 


11-5 CDH-Manager 的 Express 版 本 和 Enterprise 版 本 的 功能 差异 


从 图 11-5 可 以 看 出 ，Express 版 本 主要 满足 基本 部 署 ， 对 运 维 能 力 额 提 升 、 多 节 
点 的 管理 实际 上 还 是 缺失 的 。 而 Enterprise 版 本 功能 相对 完善 ， 但 因 费 用 门槛 问题 ， 
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使 用 者 很 难 具备 高 级 特性 开发 能 力 和 长 期 维护 支持 能 力 。 
较 之 于 Hortonworks 的 Ambari， 由 于 CDH Manager 单 独 提供 管理 组 件 ， 因此 对 多 
节点 的 集中 安装 部 署 、 监 控告 警 这 些 非 常 核心 的 管理 功能 ， 是 具备 优势 的 。 


1.23 ”优点 和 不 足 之 处 


总 体 来 说 ，Hortonworks 和 Cloudera 依 托 厂商 对 开源 组 件 的 深入 理解 ， 提 供 的 各 
种 工具 的 使 用 和 操作 都 比较 流畅 、 深 入 。 对 于 大 数据 集群 状态 监控 ， 能 从 多 个 维度 
详细 地 进行 展示 ， 按 不 同 的 时 间 粒 度 进行 趋势 分 析 ， 节 点 的 异常 也 能 做 各 个 维度 的 
剖析 展示 ， 可 视 化 报表 也 做 的 比较 完善 。 

开源 资本 的 不 足 之 处 包括 管理 工具 分 散 ， 没 有 统一 的 安装 部 署 ， 配 置 功 能 分 散 
于 各 个 纬度 的 监控 中 ， 不 能 监控 多 集群 等 。 如 Cloudera Manager 对 开源 组 件 的 安装 
一 次 只 能 安装 一 个 服务 而 且 组 件 的 安装 过 程 步骤 相当 烦琐 ， 对 于 当前 一 个 需要 支持 
15 个 以 上 大 数据 组 件 的 普通 大 数据 管理 系统 来 说 ， 安 装 服务 至 少 要 选择 15 次 安装 操 
作 ; 同时 Cloudera Manager 只 能 支持 当前 有 限 的 开源 组 件 的 管理 和 监控 ， 对 于 各 厂家 
自 研 的 组 件 的 管理 和 监控 还 需要 进行 二 次 开发 的 配合 和 支持 ， 最 后 还 有 这 些 软件 的 
使 用 技术 成 本 与 版 本 费用 等 问题 。 

因此 ， 对 于 一 个 要 达到 商用 能 力 的 大 数据 产品 ， 如 果 没 有 自主 研发 管理 系统 ， 
尤其 是 节点 数 井喷 情况 下 不 能 实现 智能 化 的 管理 维护 (后 面 章节 会 提 到 )， 将 很 难 具 备 
广泛 的 可 用 性 。 下 面 简单 介绍 中 兴 通 讯 大 数据 管理 平台 对 管理 能 力 的 自 研 情况 。 


11.3 ZTE 中 兴 大 数据 管理 框架 


1. DAP 大 数据 平台 


中 兴 通 讯 DAP 大 数据 平台 基于 Hadoop 分 布 式 技 术 ， 采 用 功能 可 裁剪 的 组 件 化 设 
计 ， 结 合 中 兴 通 讯 在 大 数据 项 目 实践 过 程 中 总 结 出 的 丰富 经 验 ， 整 合 了 海量 数据 的 
采集 、 存 储 、 管 理 、 分 析 、 查 询 、 展 现 功能 ， 并 以 平台 为 基础 提供 贴 合 各 类 行业 应 
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用 的 全 面 解决 方案 ， 帮 助 各 类 行业 客户 挖掘 、 实 现 大 数据 价值 ， 同 时 提供 持续 的 、 
贴心 的 咨询 服务 和 定制 开发 ， 保 障 企 业 长 期 发 展 。 平 台 部 分 包括 底层 采集 、 数 据 存 
储 、 数 据 挖 掘 、 安 全 中 心 、 统 一 管理 、 移 动 应 用 等 ; 在 DAP 平 台 之 上 则 可 以 实现 丰 
富 多 彩 的 应 用 以 满足 各 种 用 户 需求 。 


2. DAP-Manager 


DAP-Manager 提 供 统一 管理 方案 ， 管 理 层 次 涵盖 软 硬 件 基础 设施 、 各 类 数据 、 
大 数据 集群 、 各 类 功能 组 件 以 及 各 业务 系统 。 管 理 功能 包括 安装 、 升 级 、 监 控 、 日 
志 、License 等 ， 通 过 统一 管理 可 以 有 效 提高 运 维 管理 效率 ， 确 保 系统 的 快速 上 线 、 
运 维 ( 见 图 11-6)。 平 台 统一 管理 方案 在 第 四 届 大 数据 世界 论坛 中 荣获 “最 佳 数据 管理 
方案 奖 ”。 


DAP-Manager 系统 全 景 图 
应 
用 FH Bek i 应 用 备份 应 用 监控 应 用 巡 检 | 
a | 应 用 安装 插件 | 应 用 升级 插件 | 恢复 插件 | 插件 | 插件 
Zz ZDH |{ ZDH ){ ZDH }{ ZDH }| | 通用 || 功能 |[ 功能 re 功能 || 功能 IT 
组 安装 || 配置 || 监控 || 巡 检 安装 || 安装 || 升级 4 监控 || 巡 检 监控 
御 | 插件 儿 插 件 儿 插件 儿 插件 J) | 插件 儿 插件 儿 插件 儿 拓 御 儿 插件 儿 插件 | 插件 
w( 人 版 本 管理 框架 。 ] (配置 框架 】 [监控 界面 框架 
ha | | 主机 分 发 框架 ] | 监控 服务 框架 
Fs | license | | 日 志 ] | 安全 ] [ 告警 ] | 命令 ] 
fil 人 异 构 系统 集成 ] ( 集中 安全 ] (WEB 支撑 ] ( 消息 组 件 ] ( 命令 通道 ] 


图 11-6 DAP-Manager 软件 框架 图 


从 DAP-Manager 软 件 框 架 图 可 以 看 出 ， 除 了 基础 的 管理 和 维护 能 力 ，DAP- 
Manger 主 要 有 以 下 新 增 特点 : 
> 通过 标准 化 的 接口 支持 对 第 三 方 大 数 据 平 台 产 品 ( 异 构 系 统 的 集成 ) 的 接 入 管 
理 能 力 ; 
> 插件 化 研发 模式 ， 支 持 用 户 按 需 部 署 自己 需要 的 模块 ; 
> 巡 检 框架 的 引入 ， 排 障 、 维 护 的 自动 化 、 智 能 化 ; 
> 除 大 数据 组 件 外 的 ， 还 支持 对 IT 设备 的 管理 能 力 ; 
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> 支持 标准 的 北向 SNMP、FTP 接 口 。 
从 DAP-Manager 的 功能 介绍 ( 见 图 11-7) 可 以 看 到 ，ZTE 自 研 开 发 的 大 数据 管理 系 
统 具 备 目前 大 数据 运 维 所 需要 的 全 面 管理 功能 : 包括 自动 化 安装 部 署 、 安 全 管理 、 
全 方位 的 监控 、 告 警 、 日 志 管理 、 多 纬度 巡 检 ， 以 及 专业 的 在 线 帮 助 。 
主要 功能 


扩容 、 升 级 、 备 份 
会 管理 用 户 权限 、 应 用 用 户 权限 
控 : 集群 、 机 架 、 服 务 、 主 机 、 角 色 实 例 、 


(ti?) 作业 等 多 维度 的 监测 与 控制 
告警 : 整个 系统 的 各 个 维度 告警 查看 


日 志 : DAP 大 数据 平台 的 所 有 日 志 信 息 
So. 人 帮助 : 提供 带 助 信息 以 及 版 本 信息 
x 巡 检 整个 系统 多 维度 的 巡 检 
图 11-7 DAP-Manager 的 主要 功能 


DAP-Manager 的 安装 主机 

DAP-Manager 采 用 了 Server+Agent 的 模式 ， 其 中 主机 安装 也 就 是 Manager 的 Agent 
部 分 安装 ， 这 些 主机 可 以 归属 在 同一 个 集群 上 ， 也 可 以 归属 在 不 同 的 集群 上 ， 可 以 
在 菜单 “安装 ”一 “安装 主机 ”页 面 添加 相应 的 主机 ， 主 机 可 以 一 个 个 搜索 添加 ， 
也 可 以 根据 耳 号 段 批量 添加 。 其 中 主机 检索 的 过 程 还 提供 了 安装 条 件 检查 功能 ， 为 
后 续 的 节点 选择 提供 了 有 力 的 保障 。 

DAP-Manager 的 服务 安装 

DAP-Manager 的 服务 安装 也 就 是 大 数据 组 件 的 安装 ， 可 以 对 任意 集群 批量 安装 
所 有 服务 、 所 有 的 节点 ， 极 大 地 简化 了 运 维 成 本 。 另 外 考虑 节点 可 能 会 发 生 异 常 ， 
其 还 支持 节点 恢复 后 的 服务 通过 “纳入 受 控 ” 的 方式 再 次 进入 DAP-Manager 的 监控 
管理 中 ， 如 图 11-8 所 示 。 

DAP-Manager 的 监控 与 告警 

DAP-Manager 是 从 多 个 维度 来 提供 监控 的 ， 包 括 集 群 、 主 机 、 服 务 、 组 件 ， 无 
论 是 从 哪个 方面 监控 ， 都 有 相应 的 告警 信息 反馈 ， 这 些 告警 信息 可 以 直接 钻 取 到 告 
警 功能 查看 详情 ， 还 可 以 进一步 查看 解决 方案 。 

主页 是 集群 监控 ， 通 过 界面 就 可 以 直观 地 了 解 到 集群 的 监控 状态 ， 单 击 告警 信 
息 可 以 看 到 告警 详情 ( 见 图 11-9、 图 11-10)。 


有 | 装 : Manager 及 大 数据 组 件 的 安装 、 印 载 、 
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11-9 DAP-Manager 的 服务 安装 示意 图 
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11-10 DAP-Manager 的 集群 监控 示意 图 


可 以 从 集群 监控 钻 取 到 服务 监控 ， 也 可 以 直接 从 导航 的 “集群 ”一 “服务 ”去 
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查看 ， 查 看 具体 的 服务 详情 时 ， 在 此 页 面包 含 了 性 能 指标 的 监控 ， 也 包括 了 告警 信 
息 的 监控 ， 统 一 的 界面 布局 设计 模式 即 单 击 右上 角 的 告警 信息 查看 告警 详情 。 
可 以 从 集群 监控 到 钻 取 到 主机 监控 ， 也 可 以 直接 从 导航 的 “主机 ”直接 进去 查 
看 ， 查 看 具体 的 主机 详情 时 ， 此 页 面包 含 了 性 能 指标 的 监控 ， 也 包括 了 告警 信息 的 监 
控 ， 统 一 的 界面 布局 设计 模式 即 单 击 右上 角 的 告警 信息 可 以 看 到 告警 详情 ( 见 图 11-11)。 
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图 11-11 DAP-Manager 的 服务 监控 示意 图 
从 图 11-12 可 以 看 出 DAP-Manager 的 主机 监控 的 内 容 非常 丰富 ， 包 括 了 基本 的 操 
作 系 统 、IP、 版 本 等 信息 ， 还 包括 进程 信息 、 角 色 实 例 信息 、CPU 的 使 用 率 、CPU 的 
负责 、 网 络 使 用 率 、 文 件 系统 、 磁 盘 使 用 率 、 磁 盘 状 态 等 能 反映 主机 监控 状态 的 信息 。 
一 旦 这 些 监 控 的 性 能 指标 超过 了 阔 值 ， 就 会 触发 告警 ， 告 警 信息 则 体现 在 右上 角 。 


图 11-12 ”DAP-Manager 的 服务 监控 示意 图 
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告警 功能 在 DAP-Manager 的 任意 监控 纬度 都 可 以 跳 转 到 告警 详情 ， 也 可 以 通过 
导航 的 “告警 ”功能 进行 更 加 全 面 的 告警 查看 。 图 11-13 就 是 通过 图 11-12 的 主机 监控 
的 告警 钻 取 的 结果 。 从 图 11-13 我 们 可 以 发 现 针对 任意 一 条 告警 都 是 可 以 进一步 查看 
其 解决 方案 的 。 
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图 11-13 DAP-Manager 的 告警 监控 示意 图 


11.4 大 数据 管理 展望 


大 数据 时 代 ， 海 量 数据 的 引入 ， 对 应 的 也 是 被 管理 节点 海量 增加 ， 而 传统 意义 
上 的 单 节点 维护 管理 ， 势 必 不 能 满足 用 户 的 需求 。 仅 仅 依靠 开源 组 件 的 节点 基础 管 
维 能 力 是 难以 适应 趋势 的 。 如 何 实现 对 大 量 节 点 批量 的 集中 安装 、 快 速 部 署 、 集 中 
监控 、 巡 检 、 自 动 排 障 ， 必 将 是 衡量 Manager 能 力 的 一 个 重要 标准 。 

而 我 们 现在 时 处 工业 4.0 时 代 的 风口 浪 尖 ， 除 了 大 数据 ， 移 动 计算 也 是 IT 技术 
对 这 次 革命 突破 的 核心 所 在 ， 实 践 管理 能 力 的 移动 化 ， 实 现 智能 终端 上 的 大 数据 可 
管 、 可 维 ， 将 是 效率 上 的 大 提升 ， 也 是 个 必然 趋势 。 


11.5 要 点 回顾 


本 章 首先 介绍 了 大 数据 时 代 的 数据 管理 的 特点 和 大 数据 管理 功能 分 类 。 然 后 ， 
根据 两 大 著名 开源 软件 厂商 Hortonworks 和 Cloudera 的 管理 架构 分 析 了 其 优点 和 不 
足 。 最 后 本 章 对 国内 主流 厂商 ZTE 的 大 数据 管理 系统 进行 了 架构 介绍 和 理性 分 析 ， 并 
对 大 数据 时 代 的 数据 管理 进行 了 展望。 
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大 数据 染 构 师 实践 


学 习 完 大 数据 基础 课程 后 ， 小 明 的 团队 跃跃欲试 ， 每 个 人 都 希望 自己 能 独立 承 
接 一 票 大 单 。 小 明 冷 静 地 看 着 热情 洋溢 的 团队 成 员 ， 他 知道 这 个 团队 还 欠缺 一 项 重 
要 的 技能 ， 那 就 是 从 实践 中 所 总 结 的 知识 与 智慧 。 

于 是 ， 小 明 从 中 兴 通 讯 请 来 了 几 位 大 型 项 目的 项 目 经 理 ， 为 团队 开设 了 一 堂 大 
数据 实践 课程 。 
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大 数据 正在 莲 勃 发 展 ， 从 概念 化 走向 实际 项 目 落地 。 大 数据 的 项 目 有 其 独 有 特 
性 ， 项 目的 设计 、 实 施 、 安 全 上 线 、 稳 定 运行 是 个 复杂 的 过 程 ， 涉 及 众多 因素 ， 如 
图 12-1 所 示 ， 作 为 架构 师 要 考虑 这 些 问 题 。 


技术 发 关键 应 用 开 so 
2) OO @r ow 
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A Vv A 
选择 融合 级 扩容 
Vv A Vv A 
物理 硬件 资源 故障 定 
Oe 的 "的 


图 12-1 开源 大 数据 技术 面临 的 挑战 图 


本 章节 介绍 的 内 容 包括 从 传统 BI 产品 的 演进 到 大 数据 面临 的 问题 ， 并 结合 实际 
项 目 经 验 讲述 了 架构 一 个 大 数据 系统 需要 思考 的 关键 要 素 以 及 大 数据 在 开源 、 自 研 
和 合作 方面 的 关系 。 

一 般 来 说 ， 传 统 的 BI 产 品 ， 其 数据 采集 清理 转换 通过 ETL 工 具 支 持 ， 其 数据 存 
储 层 则 是 标准 关系 型 数据 库 ， 数 据 分 析 层 则 根据 实际 的 维度 分 析 需 要 建立 数据 仓库 
单独 建 模 ， 数 据 分 析 层 可 以 是 传统 的 关系 型 数据 库 ， 也 可 以 是 现在 基于 MPP 架 构 的 
列 式 压缩 数据 库 等 。 在 向 大 数据 演进 过 程 中 ， 其 增加 了 类 似 Hadoop 的 MapReduce 的 并 
行 处 理 能 力 ， 加 入 了 更 多 的 NOSQL 数 据 库 的 支持 ， 以 解决 数据 规模 和 实时 数据 查询 的 
问题 。 

在 选择 大 数据 组 件 上 面临 很 多 问题 与 困惑 ， 比 如 ， 对 于 基于 Hive 架 构 的 数据 分 
析 工 具 ， 其 基本 有 一 套 完善 的 数据 采集 、 数 据 存储 、 数 据 处 理 和 数据 分 析 的 框架 。 
如 数据 采集 引入 了 Flume 采 集 工 具 ， 加 强 对 非 结构 化 文件 和 流 数据 采集 ， 对 于 数据 
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存储 可 使 用 Mysql 存 储 元 数据 ，HBase 存 储 实际 业务 数据 ， 基 于 MapReduce 实 现 并 行 
处 理 ， 同 时 增加 了 HQL 语 言 ， 实 现 常 用 的 数据 分 析 查 询 ， 这 基本 上 是 一 套 完整 的 流 
程 。 再 如 实时 流 处 理 引 擎 ， 包 括 Storm 或 Spark Streaming 等 ， 又 可 以 看 到 基本 且 独 立 
的 一 套 系统 ， 也 有 对 应 的 流 数据 采集 和 适 配 ， 有 类 似 于 MapReduce 的 并 行 处 理 能 力 
和 引擎 ， 有 自己 的 分 布 式 集群 拓展 方式 ， 完 成 对 流 数据 的 端 到 端 管理 ， 相 对 独 成 体 
系 ， 整 个 流 处 理 引擎 很 难 和 其 他 产品 进行 很 好 的 融合 。 
通过 对 比 很 多 企业 的 一 些 大 数据 解决 方案 和 平台 架构 ， 我 们 发 现 一 个 问题 ， 很 
多 大 数据 项 目 更 多 的 是 各 个 已 有 的 产品 的 简单 整合 ， 原 来 的 各 个 子 产 品 本 身 也 是 针 
对 实际 的 业务 应 用 场景 逐渐 演变 出 来 的 ， 能 够 实际 地 解决 业务 问题 ， 但 是 这 种 整合 
最 大 的 问题 就 是 各 个 产品 基本 都 覆盖 了 大 数据 从 采集 到 分 析 的 多 个 层次 ， 导 致 能 力 
重复 ， 系 统 运 维 管理 困难 ， 安 全 生产 运行 存在 风险 。 
因此 ， 在 构建 大 数据 项 目的 架构 时 候 可 以 考虑 两 个 核心 的 架构 维度 。 一 个 就 是 
横向 的 分 层 架 构 ， 即 包括 数据 采集 和 集成 ， 数 据 存储 ， 数 据 处 理 ， 数 据 分 析 ; 一 个 
就 是 纵向 的 子 产 品类 维度 ， 包 括 传统 的 BI，Hive 类 数据 分 析 产 品 ， 实 时 流 处 理 等 。 
实际 上 前 面 一 种 横向 分 层 的 架构 维度 ， 可 以 实现 各 层 能 力 的 充分 共享 问题 ， 在 采用 
这 种 方式 的 时 候 就 需要 对 已 有 的 各 个 子 产品 的 各 层 能 力 完全 分 层 剥 离 ， 然 后 再 根据 
纵向 业务 需求 和 应 用 场景 的 需求 进行 整合 ， 这 本 身 是 否 可 行 也 需要 进一步 论证 。 
在 整个 过 程 中 我 们 可 以 首先 考虑 的 就 是 数据 采集 和 适 配 的 剥离 ， 并 行 处 理 框架 
和 算法 包 能 力 的 剥离 ， 数 据 任务 监控 和 调度 的 剥离 ， 数 据 集成 的 剥离 ， 共 享 数据 能 
力 层 的 构建 ， 然 后 再 来 考虑 进一步 的 能 力 组 装 和 整合 。 和 否则， 很 可 能 我 们 拿 出 来 的 
大 数据 仅仅 是 各 个 子 产品 功能 的 堆砌 ， 相 对 而 言 ， 只 是 一 盘 散 沙 ， 无 法 整合 。 


12.1 大 数据 项 目 架构 关键 步骤 


12.1.1 制定 发 展 战 略 规划 
对 于 扑面 而 来 的 大 数据 时 代 ， 如 何 应 对 大 数据 时 代 的 挑战 呢 ? 还 有 不 少 的 企业 
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和 架构 师 感到 困惑 和 迷茫 ， 比 如 我 们 的 企业 到 底 能 积累 什么 样 的 数据 ， 如 何 发 挥 这 
些 数据 的 价值 ， 面 向 未 来 的 商业 创新 又 需要 增加 或 抓 取 哪些 新 的 数据 ， 这 些 数 据 到 
底 能 帮助 企业 做 什么 ， 企 业 的 大 数据 战略 到 底 是 什么 ， 等 等 。 因 此 ， 企 业 要 拥抱 大 
数据 ， 如 果 不 了 解 大 数据 的 特点 ， 没 有 清晰 的 大 数据 战略 ， 不 仅 无 法 驾驭 大 数据 ， 
而 且 会 被 大 数据 淹没 。 

在 制定 战略 之 前 ， 先 要 做 现状 评估 及 调研 ， 包 括 三 个 方面 : 一 是 行业 调研 ， 了 
解 业界 大 数据 有 哪些 最 新 的 发 展 ， 业 内 顶尖 企业 的 大 数据 应 用 水 平 如 何 ， 主 要 竞争 
对 手 的 大 数据 应 用 水 平 如 何 ; 二 是 内 部 调研 ， 管 理 层 、 业 务 部 门 、IT 部 门 、 最 终 用 
户 等 目前 的 痛 点 与 需求 ， 对 大 数据 有 何 期 望 ， 三 是 自身 状况 摸底 ， 了 解 自身 技术 、 
人 员 储备 情况 。 

评估 完成 ， 需 要 根据 调研 情况 ， 形 成 分 析 报 告 ， 找 出 差距 ， 制 定 战略 规划 ， 大 
数据 战略 是 整个 大 数据 项 目的 灵魂 和 核心 ， 它 将 成 为 组 织 大 数据 发 展 的 指引 。 


12.1.2 ”明确 业务 需求 及 边界 


企业 构建 以 大 数据 技术 为 中 心 的 业务 ， 需 要 结合 企业 大 数据 发 展 战略 规划 ， 明 
确 项 目 背景 。 

一 般 来 说 ， 大 数据 项 目 可 以 分 为 如 下 几 种 类 型 。 第 一 种 类 型 是 技术 试点 型 项 
目 ， 主 要 是 对 技术 的 可 行 性 进行 验证 ， 考 察 大 数据 项 目 上 线 的 方案 及 技术 可 行 性 ; 
第 二 种 类 型 是 基于 某 个 大 数据 技术 的 独立 业务 项 目 ， 满 足 企业 当前 业务 实际 需求 ; 
第 三 种 类 型 是 基于 未 来 发 展 的 大 数据 架构 ， 即 大 数据 作为 基础 数据 存储 平台 ， 运 
行 多 种 计算 框架 ,支持 各 类 业务 应 用 动态 接 入 的 平台 化 大 数据 项 目 。 不 同 的 项 目 类 
型 ， 需 要 采用 不 同 的 解决 方案 。 

在 项 目 实施 之 前 ， 需 要 基于 业务 需求 、 业 务 背 景 ， 明 确 项 目 范围 的 界定 。 没 有 
明确 项 目 边界 的 项 目 是 不 可 控 的 项 目 ， 在 项 目 实施 过 程 中 必 将 面临 巨大 的 风险 。 大 
数据 项 目 在 技术 和 人 员 等 方面 所 面临 的 问题 ， 主 要 包括 以 下 几 个 方面 。 

> 大 数据 基础 平台 的 成 熟 度 尚 不 完善 : 基于 Hadoop 技 术 的 开源 方案 ， 尚 存在 较 

多 的 缺陷 ， 需 要 逐步 完善 技术 。 
> 大 数据 辅助 工具 的 缺失 : 数据 定义 、 数 据 处 理 以 及 数据 可 视 化 管理 工具 等 尚 
A RAR, 
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> 大 数据 开发 和 管理 人 员 技 术 能 力 的 不 成 熟 : 熟悉 大 数据 开发 与 管理 的 人 才 较 
少 ， 并 且 层 次 参差 不 齐 。 
正 是 基于 以 上 原因 ， 导 致 大 数据 项 目 相对 于 传统 关系 型 数据 库 项 目 ， 需 要 在 项 
目 边 界 的 界定 上 更 多 地 考虑 如 下 问题 : 
> 业务 边界 : 需要 考虑 哪些 业务 系统 的 数据 需要 接 入 数据 仓库 平台 。 
> 数据 边界 : 需要 考虑 哪些 业务 数据 需要 接 入 数据 仓库 平台 ， 具 体 包 括 哪 些 
表 ， 表 结构 如 何 ， 以 及 表 间 关系 如 何 (区 别 于 传统 模式 )。 
> 功能 边界 : 需要 考虑 提供 哪些 功能 ， 不 提供 哪些 功能 ， 并 明确 功能 的 
界定 。 
从 某 种 意义 上 说 ， 需 求 就 是 一 个 系统 的 轮廓 和 边界 ， 也 决定 了 这 个 系统 的 功能 
以 及 基本 的 形态 。 确 定 需 求 在 架构 建设 中 是 至 关 重 要 的 。 


12.1.3 项目 架构 设计 


架构 师 需 进行 充分 的 沟通 ， 并 通过 沟通 了 解 业务 特点 及 业务 流程 。 需 了 解 的 内 
容 主要 包括 系统 间 数 据 的 交互 流程 与 传输 模式 、 功 能 要 求 与 性 能 要 求 等 。 系 统 间 的 
数据 交互 流程 和 模式 ， 决 定 了 项 目的 架构 和 设计 ， 因 此 需要 对 以 下 几 个 方面 进行 专 
项 分 析 。 


1. 历史 数据 导入 流程 


需要 具备 将 原 有 数据 (或 是 传统 数据 仓库 中 备份 的 数据 ) 导 入 到 大 数据 系统 的 能 
力 ， 为 大 数据 系统 提供 初始 基础 数据 。 在 此 过 程 中 ， 需 要 分 析 原 始 数据 的 存储 形 
式 ， 以 及 如 何 对 接 等 ， 是 否 要 做 数据 规整 化 ， 是 否 存在 结构 化 、 非 结构 化 数据 等 内 
容 。 当 然 ， 如 果 可 以 舍弃 历史 数据 ， 则 这 个 过 程 可 以 被 裁剪。 


2. 增 量 数据 导入 流程 


历史 数据 是 某 个 时 间 点 之 前 的 数据 ， 与 之 对 应 ， 增 量 数据 则 是 这 个 时 间 点 之 后 
的 数据 。 增 量 数据 的 导入 一 般 可 以 复 用 历史 数据 导入 流程 ， 但 需要 关注 如 何 保证 
增 量 数据 和 历史 数据 的 一 致 性 。 特 别 是 随 着 应 用 的 变化 ， 增 量 数据 导入 会 面临 
越 来 越 多 的 兼容 性 考虑 。 随 着 平台 的 建设 ， 需 要 花费 更 多 的 精力 和 时 间 来 满足 兼 
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容 性 需求 。 
3. 数据 完整 性 校 验 流程 


导入 数据 是 否 完整 、 不 完整 数据 是 否 需要 补充 完整 、 导 入 过 程 是 否 正确 等 ， 都 
需要 在 导入 时 做 校 验 与 检查 。 


4. 数据 存储 流程 


数据 在 大 数据 集群 上 的 存储 路 径 规划 、 副 本 策略 、 存 储 格式 、 压 缩 方法 、 访 问 
控制 策略 、 配 额 等 ， 都 需要 进行 设计 。 


5. 数据 处 理 流程 


数据 加 工 处 理 流程 涉及 多 个 大 数据 组 件 ， 各 个 组 件 间 如 何 交 互 、 数 据 如 何 流 
动 、 安 全 性 如 何 控制 、 采 用 何 种 异常 处 理 机 制 等 ， 在 设计 时 需要 进行 考虑 。 


6. 数据 导出 流程 


系统 对 外 的 输出 ， 其 可 以 是 批量 数据 的 输出 ， 也 可 以 是 指定 数据 的 导出 。 行 数 
据 导出 的 方案 需要 根据 与 外 部 系统 的 对 接 形式 、 用 户 所 需 的 输出 形式 ， 来 做 设计 。 


7. 数据 查询 流程 


通过 一 定 的 方式 ， 提 取 数 据 并 组 织 数据 ， 最 后 展现 给 操作 员 、 用 户 或 者 第 三 方 
系统 。 


8. 工作 流 调度 


很 多 情况 下 ， 数 据 是 按照 策略 进行 周期 性 导入 ， 然 后 由 大 数据 集群 进行 数据 的 
存储 加 工 处 理 ， 并 对 外 提供 服务 。 因 此 设计 时 要 考虑 采用 工作 流 系统 对 整个 流程 进 
行 调度 ， 实 现 数据 从 采集 到 处 理 的 完全 自动 化 。 

确定 数据 输入 、 数 据 输 出 ， 以 及 加 工 处 理 调度 等 流程 ， 整 个 系统 架构 才能 成 为 
一 个 有 机 的 整体 。 

进一步 细 化 后 ， 系 统 架 构 需 要 考虑 的 内 容 ， 如 表 12-1 所 示 。 
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表 12-1 系统 架构 关键 点 列表 
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细 化 条 目 


功能 性 


非 功能 性 


接口 需求 


历史 数据 导入 


数据 清单 
关联 规则 
界面 

输入 输出 
处 理 逻辑 
异常 处 理 


增 量 数据 导入 

| 数据 核验 
数据 存储 

数据 加 工 

数据 导出 

数据 查询 

工作 流 调度 

性 能 

安全 性 

可 靠 性 

可 扩展 性 

可 用 性 

| 远 维 管理 | 
上 线 部 署 
故障 与 诊断 
数据 查询 接口 
批量 任务 管理 接口 


数据 导出 接口 


架构 不 仅 需要 考虑 高 层面 的 框架 ， 并 且 在 关键 处 需要 考虑 细节 ， 关 键 功能 特性 
的 合理 性 以 及 系统 的 故障 运 维 能 力 ， 将 决定 整个 架构 的 可 持续 运行 能 力 。 


12.1.4 


组 件 技术 选 型 


架构 最 终 会 体现 在 技术 与 组 件 的 选择 上 。 大 数据 的 组 件 繁多 ， 但 不 同 的 组 件 适 
用 的 场景 也 不 尽 相同 ， 如 离线 处 理 软件 、 实 时 处 理 型 软件 、 准 实时 处 理 软件 等 。 选 
择 合理 的 大 数据 组 件 ， 可 以 事半功倍 。 


选择 大 数据 组 件 技术 要 求 很 高 ， 需 综合 对 比 组 件 的 功能 、 
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性 、 高 可 用 性 、 高 可 靠 性 、 高 扩展 性 、 管 理 复杂 度 等 多 种 维度 的 考虑 。 同 时 ， 组 件 
间 的 依赖 关系 、 未 来 发 展 、 发 行 版 本 、 安 全 问题 等 ， 都 需要 通盘 考虑 。 
常用 的 几 种 组 件 ， 其 使 用 场景 对 比如 下 。 
> 实时 应 用 场景 (0~5s): 采用 Storm、Impala、Spark Streaming 等 。 
> 交互 式 场景 (5s~1m): 这 种 场景 通常 要 求 支持 SQL， 相 关 组 件 有 Impala、Spark 
SQL 等 。 
> 非 交互 式 场景 (lm 以 上 ): 通常 运行 时 间 较 长 ， 处 理 数 据 量 较 大 ， 对 容错 性 和 
扩展 性 要 求 较 高 ， 相 关 组 件 有 MapReduce、Hive 等 。 


12.1.5 ”组件 关键 参数 规划 


在 构建 系统 时 ， 如 图 12-2 所 示 ， 如 下 几 个 参数 对 系统 安全 运行 有 很 大 影响 ， 需 
要 在 架构 阶段 考虑 。 

> 内 存 规 划 : 内 存 规划 至 关 重 要 ， 同 一 个 计算 节点 可 能 运行 多 个 进程 ， 每 个 进 
程 启动 运行 中 都 需要 内 存 资 源 。 需 要 在 启动 时 结合 计算 模型 与 业务 场景 进行 
分 析 计 算 ， 为 每 个 进程 分 配合 理 的 内 存 。 另 外 ， 不 仅 需要 考虑 自身 运行 所 需 
的 内 存 ， 还 需要 考虑 是 否 给 其 他 进程 预 留 了 足够 的 内 存 ， 否 则 很 可 能 导致 各 
进程 在 系统 中 不 断 进 行内 存 切 换 ， 导 致 性 能 恶化 。 

> 作业 管理 策略 : 耗 时 长 的 运行 任务 和 重点 保障 任务 需要 通过 管理 手段 分 时 调 
度 ， 并 保证 并 发 任务 数目 不 能 过 多 。 过 多 的 并 发 很 可 能 会 拖 慢 整 个 集群 运 
行 ， 反 而 降低 集群 效率 。 可 以 采用 动态 调整 作业 当前 运行 的 优先 级 ， 并 优先 
保证 高 优先 级 作业 优先 运行 。 

> 资源 管理 : 存储 资源 分 配 、 计 算 资源 分 配 、 计 算 资 源 调度 策略 ， 以 及 计算 资 
源 队 列 规划 等 ， 都 是 影响 运行 的 关键 因素 。 

> 权限 管理 : 某 个 用 户 只 能 向 固定 分 组 提交 作业 ， 只 能 使 用 固定 分 组 中 配置 的 
资源 ; 同时 可 以 限制 每 个 用 户 提交 的 作业 数 、 使 用 的 资源 量 等 。 另 外 ， 权 限 
管理 还 包括 HDFS 的 使 用 权限 控制 。 
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图 12-2 系统 资源 管理 图 


12.1.6 ”硬件 选择 


硬件 部 署 规模 可 根据 数据 规模 来 确定 。 需 考虑 的 因素 包括 已 有 的 数据 量 、 后 续 
增加 的 数据 量 、 数 据 保存 周期 ， 以 及 可 靠 性 要 求 等 因素 。 
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一 般 来 说 ， 硬 件 配置 自然 是 越 高 越 好 。 但 作为 企业 ， 往 往 需要 关注 效 费 比 等 
经 济 因素 ， 因 此 部 署 时 也 需要 寻找 一 个 经 济 均衡 点 ， 让 硬件 发 挥 出 最 大 的 功能 和 性 
能 。 硬 件 规划 及 选择 ， 应 结合 现状 及 资金 投入 计划 ， 了 解 企业 已 有 软 硬 件 资源 ， 考 
虑 已 有 资源 是 否 满足 需求 ， 最 后 才能 明确 是 全 新 搭建 ， 还 是 利用 已 有 设备 。 
具体 来 说 ， 有 三 种 部 署 类 型 ， 包 括 物理 机 、 虚 拟 化 方式 、 一 体 机 方式 ， 对 比如 
表 12-2 所 示 。 
表 12-2 三 种 大 数据 部 署 类 型 对 比 


一 体 机 部 加 ENS NBS 
a | a 


部 署 速度 we 

高 可 用 和 容错 能 力 [wih 

环境 资源 利用 率 Bg 

安全 性 本 | 一 般 

维护 和 迁移 困难 

可 扩展 性 差 | 好 | 好 

费用 低 

空间 占用 >i 

专业 性 强 的 、 相 对 成 
应 用 场景 推荐 。 ”| 熟 稳定 的 、 对 成 本 不 | 轻 量 型 的 实验 测试 环境 a alata 


敏感 的 行业 

另外 ， 在 选择 时 要 根据 业务 对 资源 的 消耗 特点 ， 如 CPU 密集 型 、IO 密 集 型 、 网 
络 密集 型 等 ， 确 定 相应 的 硬件 选择 策略 ; 

如 计算 要 求 高 ， 则 CPU 和 内 存 的 配置 要 求 也 较 高 ， 同 时 在 部 署 设 计 上 需要 将 计 
算 节 点 独立 出 来 ， 避 免 存储 节点 占用 过 多 的 CPU， 导 致 计算 延迟 。 如 存储 要 求 高 ， 
则 需要 加 大 磁盘 的 容量 ， 在 部 署 设计 上 可 以 采用 多 DataNode 节 点 分 担 文件 读 写 压 
力 ， 同 时 将 计算 节点 和 DataNode 节 点 合 设 ， 以 减少 服务 器 数量 。 

市 场 上 有 各 种 类 型 的 磁盘 ， 性 能 上 存在 差异 ， 所 以 还 需要 考虑 磁盘 类 型 的 选 
择 。 一 般 情况 下 ， 选 用 sas 盘 较 多 ， 但 性 能 要 求 较 低 时 可 考虑 sata 盘 ， 性 能 要 求 较 高 时 
可 考虑 采用 ssd 盘 。 另 外 还 可 以 通过 RAID 技 术 来 辅助 实现 磁盘 性 能 的 提升 以 及 高 可 靠 
性 的 提升 。 

搭建 系统 时 需要 考虑 每 台 服 务 器 的 单 节点 的 性 能 ， 避 免 出 现 短 板 ， 形 成 性 能 瓶颈 

同时 ,平台 的 整体 部 署 离 不 开 高 性 能 网 络 的 支撑 。 需 考虑 IP 地 址 的 规划 、 机 架 
的 部 署 、 网 络 的 部 署 ， 以 及 机 架 上 所 部 署 交换 机 的 处 理 能 力 等 。 同 时 ， 还 需 考虑 未 
来 扩展 、 网 络 高 可 用 、 安 全 隔离 、 防 火 墙 的 部 署 、 容 灾 集 群 等 多 方面 的 因素 。 
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网 络 建议 采用 万 兆 网 ， 既 可 以 降低 网 络 部 署 的 复杂 性 ， 也 可 以 提高 可 维护 性 。 虽 然 
在 特殊 情况 下 也 可 以 采用 多 网 口 绑 定 的 方式 ， 但 是 往往 会 大 幅 提高 网 络 部 署 的 复杂 性 。 

对 于 实现 高 可 用 ， 我 们 一 般 都 会 对 网 络 采用 双 网 双 平 面 的 部 署 方式 ， 如 图 12-3 
所 示 ( 图 中 略 去 防火 墙 等 设备 ， 主 要 保留 平台 所 需 的 设备 )。 


外 部 网 络 


10GE 光 口 


图 12-3” 双 网 双 平 面 的 网 络 部 署 模式 


12.1.7 集群 部 署 模式 选择 


根据 系统 设计 架构 ， 需 要 考虑 集群 的 部 署 模式 ， 一 般 来 说 ， 有 如 下 几 种 部 署 模式 。 

> 单独 业务 集群 模式 : 每 个 业务 新 建 一 套 集群 ， 独 立 运行 。 

> 统一 集群 模式 : 所 有 新 上 线 的 业务 在 同一 套 集群 运行 大 数据 平台 所 有 服务 
都 部 署 到 一 个 基础 集群 上 ， 该 集群 负责 数据 的 存储 与 计算 功能 ， 同 时 对 应 用 
提供 服务 。 

> 混合 模式 : 大 集群 HN 个 业务 集群 混合 模式 ， 混 合 模式 是 部 署 一 个 基础 集群 ， 
N 个 在 线 集群 。 基 础 集群 与 在 线 集群 分 离 ， 各 应 用 部 署 在 不 同 的 在 线 集群 ， 
相互 之 间 也 是 分 离 的 ， 由 管理 器 同时 管理 监控 多 个 集群 。 

图 12-4 为 一 个 典型 的 混合 部 署 模式 。 
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Pa 和 | 基础 集群 在 线 集群 .Hipase 集 群 在 线 集群 “Spark 集群 


数据 源 工作 流 调 度 
生产 环境 
图 12-4 混合 型 组 网 模式 图 
另外 ， 对 于 落实 技术 来 说 ， 不 同 的 业务 特征 需要 不 同 的 技术 ， 需 要 考虑 多 方面 
的 需求 。 例 如 ， 需 考虑 关键 数据 和 业务 是 否 支持 容 灾 ， 关 键 RTO/RPO 指 标 采用 同城 
容 灾 还 是 异地 容 灾 模 式 、 双 活 模式 还 是 主 备 模式 等 ， 不 同 的 需求 有 不 同 的 技术 。 
图 12-5 所 示 为 一 个 典型 的 主 备 模式 的 容 灾 系 统 。 


大 数据 平台 生产 系统 “| 全 一 上 上 和 瑚 大 妆 据 平台 容 灾 系统 
Active sed > Standby 
x. ty HS 


图 12-5 主 备 容 灾 模式 部 署 图 


12.1.8 软件 部 署 规划 


大 数据 的 部 署 是 一 个 复杂 的 过 程 ， 会 面临 多 种 挑战 ， 要 考虑 系统 可 以 安全 、 稳 定 地 
运行 ， 要 保证 服务 的 高 可 用 、 高 可 靠 性 ， 高 扩展 性 、 故 障 隔离 ， 要 降低 管理 复杂 度 。 
为 保证 大 数据 系统 的 稳定 可 靠 运行 ， 在 整体 部 署 上 应 遵循 如 下 隔离 原则 。 

> 生产 环境 和 测试 环境 的 隔离 

系统 环境 分 为 生产 环境 和 测试 环境 。 其 中 生产 环境 用 于 实际 运营 ， 承 载 真实 业 
务 数据 和 业务 应 用 ， 测试 环境 用 于 各 种 功能 验证 和 性 能 测试 等 ， 包 括 应 用 在 上 线 前 
的 功能 验证 。 如 把 两 个 环境 合用 ， 将 带 来 很 多 不 确定 性 ， 测 试 环境 容易 对 生产 环境 
造成 干扰 ， 影 响 生产 环境 正常 业务 的 提供 ， 甚 至 测试 环境 中 不 成 熟 的 应 用 和 业务 运 
行 时 可 能 对 环境 造成 破坏 性 的 影响 。 因 此 要 对 两 个 环境 进行 物理 隔离 ， 两 者 独立 运 
行 ， 互 不 干扰 ， 防 止 因 硬 件 资源 的 占用 或 者 抢夺 对 运行 造成 不 必要 的 影响 。 
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> 不 同 集群 的 隔离 

为 避免 可 能 存在 的 机 架 断 电导 致 集群 数据 丢失 或 者 停止 服务 ， 需 要 将 属于 同一 
个 集群 的 不 同 节点 分 别 部 署 到 不 同 的 机 架 上 ， 通 过 多 个 机 架 的 方式 提供 对 服务 器 的 
承载 。 每 个 集群 都 基于 一 套 独立 的 HDFS 运 行 ， 这 样 从 物理 上 和 逻辑 上 与 其 他 集群 都 
进行 了 隔离 。 

> 在 线 应 用 和 离线 应 用 的 隔离 

在 大 数据 平台 上 运行 的 应 用 分 为 在 线 应 用 和 离线 应 用 两 大 类 。 为 保证 重点 在 线 
应 用 的 正常 运行 ， 需 要 单独 规划 HBase 集 群 ， 且 该 集群 基于 一 套 独立 的 HDFS 运 行 ， 
从 物理 上 和 逻辑 上 和 其 他 集群 都 进行 隔离 。 

> 不 同 在 线 应 用 的 隔离 

对 于 在 线 应 用 ， 分 为 一 般 在 线 应 用 和 重点 在 线 应 用 ， 重 点 在 线 应 用 基于 一 套 独 
立 的 HDFS 运 行 ， 实 现 物理 隔离 ， 用 于 存储 重要 的 在 线 数 据 ， 保 证 实时 查询 服务 的 持 
续 提 供 。 一 般 在 线 应 用 用 于 提供 普通 的 HBase 查 询 ， 对 实时 性 的 要 求 低 于 重点 在 线 应 
用 ， 所 以 可 和 离线 应 用 部 署 在 一 个 集群 中 。 

> 不 同 应 用 数据 的 隔离 

集群 中 的 数据 都 是 基于 HDFS 进 行 存 放 的 ， 因 此 对 于 属于 同一 个 集群 内 的 应 用 的 
数据 隔离 ， 可 通过 设置 不 同 的 HDFS 目 录 存 放 的 方式 实现 不 同 应 用 数据 的 隔离 ， 如 图 
12-6 所 示 。 


HDFS APP 1(drwxrwxr--) 
Input(drwxrwxr--) 


Output(drwxrwxr--) 

Tmp(drwxrwx-—-) ~~ 其 他 应 用 可 读 取 
APP 2(drwxrwx---) 
Input(drwxrwx---) 

Output(drwxrwx---) 

Tmp(drwxrwx--- 
[Temp rtm 
APP n(drwxrwx-w-) 

Input(drwxrwx-w-) 
Output(drwxrwx-w-) 


Tmp(drwxrwx---) 
一 Se 
图 12-6 HDFS 目 录 设 置 方式 示意 图 
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不 同 应 用 属于 不 同 的 用 户 ， 不 同 的 应 用 使 用 不 同 的 目录 ， 然 后 通过 对 目录 进行 
权限 配置 的 方式 进行 隔离 和 共享 。 

各 个 应 用 在 自身 所 属 的 目录 下 设置 子 目录 ， 以 及 数据 计算 所 需 的 输入 (例如 : 
Input) 和 输出 (例如 : Outpub 的 目录 名 称 等 。 

一 个 典型 大 数据 软件 部 署 如 表 12-3 所 示 。 

表 12-3 ”典型 大 数据 软件 部 署 表 


1 主 控 节 点 ( 主 ) 


2 主 控 节 点 ( 备 ) 


3 主 控 辅 助 节点 


4 存储 计算 节点 


5 存储 计算 节点 


6 存储 计算 节点 


NameNode 
HMaster 
ResourceManager 
JournalNode 
ZooKeeper 
NameNode 
HMaster 
ResourceManager 
JournalNode 
ZooKeeper 
JournalNode 
ZooKeeper 
RegionServer 
NodeManager 
DataNode 
RegionServer 
NodeManager 
DataNode 
RegionServer 
NodeManager 
DataNode 


7 存储 计算 节点 


RegionServer 
NodeManager 
DataNode 


8 存储 计算 节点 


RegionServer 
NodeManager 
DataNode 


存储 计算 节点 


管理 控制 服务 器 ( 主 ) 
管理 控制 服务 器 ( 备 ) 


RegionServer 
NodeManager 
DataNode 
Manager 


Manager 
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12.2 架构 师 实践 思考 


大 数据 持续 火热 下 ， 很 多 时 候 还 是 需要 冷静 思考 以 下 问题 ， 如 团队 的 定位 及 发 
展 ， 如 何平 衡 开源 、 自 研 和 第 三 方 合作 的 关系 ， 等 等 。 


12.2.1 团队 的 定位 及 发 展 


小 团队 指 的 是 人 数 非 常 少 ， 或 者 中 等 规模 完全 不 具备 大 数据 知识 的 团队 。 对 于 
这 样 的 团队 ， 想 要 完整 地 或 者 深入 地 掌握 大 数据 的 精髓 ， 甚 至 去 实践 使 用 ， 都 是 非 
常 困 难 的 ， 这 样 的 特点 决定 了 只 能 去 简单 使 用 ， 或 者 利用 掌握 的 各 类 资源 ， 借 助 成 
熟 的 大 数据 产品 来 解决 某 个 具体 项 目 或 者 应 用 。 

对 于 中 型 团队 来 说 ， 有 具备 大 数据 的 实践 经 验 ， 并 在 大 数据 的 某 些 领域 具备 相关 
产品 ， 有 具备 大 数据 的 运 维 管理 经 验 和 工具 ， 能 够 对 大 数据 开源 版 本 进行 优化 实施 ， 
能 够 结合 业务 产品 去 推进 大 数据 平台 产品 的 形成 。 

对 于 大 型 团队 来 说 ， 除 了 具备 中 型 团队 的 能 力 之 外 ， 还 应 该 有 足够 的 人 力 去 推动 
大 数据 产品 的 完善 和 实现 ， 并 能 够 引领 行业 的 发 展 方向 ， 为 大 数据 的 实现 指引 方向 。 


12.2.2 ”开源 、 自 研 和 第 三 方 合作 的 关系 


1. 开源 为 根 


开源 是 一 种 自由 的 思维 ， 是 一 种 大 家 互相 共享 知识 ， 共 同 进步 的 根源 。 在 大 数 
据 领域 ， 开 源 已 经 成 为 一 种 潮流 ， 如 果 仍然 闭关 自 守 ， 很 难 将 自己 的 软件 或 者 产品 
推广 给 大 众 ， 同 时 失去 了 这 个 根源 ， 也 很 难 汲取 到 开源 世界 的 营养 ， 久 而 久之 ， 必 
将 被 抛弃 和 老化 。 
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同时 ， 其 并 不 是 全 方位 地 公开 。 不 能 公开 的 ， 比 如 我 们 的 个 人 隐私 、 国 家 的 核 
心 技术 和 敏感 技术 (如 印 钞 机 ) 等 ， 可 以 公开 的 ， 应 该 是 一 些 不 甚 敏感 、 公 开 不 意味 
着 毁灭 的 技术 和 信息 ， 如 软件 源 代码 、 部 分 硬件 电路 图 、 饮 食 菜 谱 等 ， 很 多 实例 证 
明 ， 公 开 它 们 不 但 没有 使 公开 者 蒙受 损失 ， 反 而 引起 了 人 们 更 多 的 兴趣 和 热情 ， 使 
得 相关 的 技术 发 展 进入 一 个 良性 循环 ， 稳 步 前 进 ， 这 就 是 一 种 良好 的 社会 风气 。 

只 有 把 握 好 公开 和 不 公开 的 道德 尺度 ， 世 界 才 会 和 谐 。 在 信息 时 代 ， 对 技术 的 
封闭 ， 一 定 是 阻碍 了 科学 进步 的 绊脚石 。 曾 经 的 产权 保护 ， 的 确 是 推进 了 一 些 国家 
的 进步 ， 但 却 不 一 定 适 用 于 当今 的 时 代 发 展 ， 如 果 现 在 还 无 视 开 源 的 重要 性 ， 只 能 
说 明 这 些 人 的 短视 或 暗 怀 鬼 胎 。 

在 这 样 一 个 大 的 理想 下 ， 我 们 发 现 ，“ 自 由 ”， 更 是 一 种 寻求 蓝海 的 重要 战略 ! 

公开 它 的 内 部 技术 构造 并 不 代表 公布 它 的 全 部 ， 这 其 中 还 包括 一 系列 的 如 整 
合 、 系 统 优化 和 工程 化 等 的 软 性 思维 ， 也 就 是 隐 性 技术 。 所 以 开源 产品 的 价值 并 不 
因为 公开 内 部 结构 而 丧失 。 理 解 这 一 点 也 是 理解 开源 意义 的 一 步 。 只 要 你 稍稍 留意 
就 会 发 现 ， 开 源 就 在 我 们 的 身边 。 如 果 你 再 稍 加 思考 就 会 明白 过 来 ， 我 们 正 是 处 在 
一 种 大 的 时 代 变 革 初 期 ， 而 开源 ， 正 是 默默 推动 这 场 变 革 的 巨大 力量 。 更 早 地 意识 
到 这 一 点 ， 是 使 你 站 在 世界 前 沿 的 基本 要 素 。 

也 许 你 已 经 能 够 强烈 地 感受 到 开源 的 重要 性 了 ， 种 种 迹象 也 表明 ， 开 源 越 来 越 
受到 政府 、 企 业 的 重视 ， 越 来 越 多 的 人 认识 到 开源 的 重要 性 及 可 发 展 性 ， 变 革 已 近 
在 眼前 ， 开 源 也 被 提 上 了 日 程 。 


2. 自 研 为 核 


开源 虽然 是 大 数据 平台 或 者 产品 的 生存 根源 ， 但 是 开源 的 东西 总 是 不 定 的 ， 变 
化 的 ， 同 时 总 有 一 些 特性 是 保留 的 ， 同 时 开源 的 内 容 也 是 大 家 共同 的 ， 并 不 会 对 产 
品 产生 优势 ， 并 不 能 成 为 别人 选择 的 特质 。 因 此 在 开源 的 基础 上 ， 需 要 以 自 研 为 核 
心 ， 提 炼 出 自身 产品 的 核心 竞争 力 ， 将 这 些 优 秀 的 特质 做 积累 ， 并 对 开源 软件 做 完 
善 和 提升 ， 这 样 才能 体现 出 个 性 。 如 果 盲 目 跟从 开源 代码 ， 最 终 也 会 在 跟随 中 失去 
个 性 ， 从 而 在 产品 推广 和 产品 测试 中 淘汰 。 


3. 合作 为 足 
科技 社会 化 、 社 会 科技 化 的 今天 ， 是 一 个 竞争 更 为 激烈 ， 同 时 又 需要 更 加 紧密 
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合作 的 社会 。 纵 观 世 界 科技 发 展 的 历史 ， 任 何 一 项 发 明 创造 都 是 科学 家 群体 共同 努 
力 的 结晶 。 特 别 是 21 世 纪 以 来 ， 重 大 的 科学 发 现 和 技术 发 明 无 一 不 是 科学 家 们 精诚 
合作 的 成 果 ， 无 一 不 是 科技 领域 的 创造 群体 在 合作 中 取得 的 辉煌 成 就 。 在 相互 间 的 
合作 中 能 凝聚 力量 ， 集 中 智慧 ， 实 现 效果 的 最 大 化 。 竞 争 能 促进 更 好 地 合作 ， 合 作 
有 助 于 更 好 地 竞争 。 

大 数据 开源 项 目 枝 繁 叶 茂 ， 能 够 应 用 的 领域 也 已 经 涉及 各 行 各 业 ， 如 果 扎 根 于 
开源 ， 闭 门 自 研 ， 还 是 不 够 的 ， 很 难 在 一 些 特色 领域 ， 或 者 一 些 特色 行业 中 深入 进 
去 。 即 使 大 数据 组 件 本 身 ， 一 些小 公司 或 者 其 他 一 些 大 公司 ， 都 在 某 一 些 方面 有 自 
己 独 特 的 东西 ， 能 够 快速 地 在 某 一 个 行业 有 所 作为 ， 或 者 能 够 快速 提升 产品 的 某 些 
特性 。 这 些 光 靠 自 研 肯定 是 不 够 的 ， 资 源 毕竟 都 是 有 限 的 。 通 过 合作 可 以 展开 自己 
的 手足 ， 触 摸 到 不 同 领域 、 不 同行 业 ， 从 而 给 产品 带 来 勃勃 生机 。 
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通过 前 面 的 理论 学 习 与 培训 ， 小 明 深刻 地 感受 到 ， 只 有 这 些 理论 知识 还 远 远 不 
够 。 他 在 一 次 技术 峰会 上 ， 偶 尔 听 到 国内 著名 通讯 厂商 中 兴 通 讯 的 部 署 实践 案例 ， 
小 明 如 获 至 宝 ， 将 自己 的 听课 笔记 整理 成 团队 的 部 署 实践 教材 。 


13.1 中 兴 通 讯 DAP 大 数据 平台 功能 和 架构 


中 兴 通 讯 DAP 大 数据 平台 基于 Hadoop 分 布 式 技术 ， 结 合 中 兴 通 讯 在 大 数据 项 
目 实践 过 程 中 总 结 出 的 丰富 经 验 ， 整 合 了 海量 数据 的 采集 、 存 储 、 管 理 、 分 析 、 查 
询 、 展 现 功能 ， 并 且 以 平台 为 基础 提供 贴 合 各 类 行业 应 用 的 全 面 解 决 方案 ， 帮 助 各 
类 行业 客户 挖掘 、 实 现 大 数据 价值 。 同 时 ， 其 可 提供 持续 的 咨询 服务 和 定制 开发 ， 
缩短 大 数据 应 用 开发 周期 与 开发 成 本 。DAP 平 台 功能 和 架构 如 图 13-1 所 示 。 


大 数据 应 用 1 大 数据 应 用 2 


数据 服务 开放 工具 及 接口 
ODPP 


分 析 挖 所 
[分 析 控 所 算法 库 。 ] [ 文本 语义 挖掘、 图 挖 所 等 


TERE 
人 批 处 理 | 流 处 理 交互 式 SQL NosQL 
Spark Stom Impala Hbase 
Hive Spark Streaming SparkSQL 

x MapReduce 


集群 资源 管理 
YARN 


分 布 式 文件 系统 
HDFS 


if Sasa anes, Sale 
Ce) Cz) Le [Fe ] [see J 


图 13-1 DAP 总 体 架构 图 
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DAP 在 Hadoop 的 基础 上 ， 依 据 应 用 场景 对 相关 组 件 进行 性 能 优化 ， 并 自 研 了 
ODPP 开 放 服 务 层 、 统 一 管理 等 组 件 ， 支 撑 企 业 的 商用 化 应 用 。 


13.2 DAP 平 台 特 点 


DAP 平 台 具 有 如 下 特点 。 

第 一 ， 对 技术 进行 整合 与 优化 ， 实 现 强大 的 数据 存储 和 计算 能 力 。 

> 基于 Hadoop 技 术 体 系 ， 集 成 了 Hadoop 核 心 组 件 ， 提 供 完 备 的 大 数据 存储 和 计 
算 能 力 。 

> 针对 Hadoop 各 重要 组 件 (如 HDFS、Yam、HBase、HIVE 等 ) 进 行 了 大 量 核心 技 
术 优 化 ， 显 著 提 升 了 整体 性 能 和 效率 。 

第 二 ， 提 供 丰富 的 数据 处 理 、 挖 掘 、 分 析 技术 和 工具 ， 支 持 复杂 多 样 的 应 用 

需求 。 

> 集成 ETL、 网 络 朴 贝 、FLUME 日 志文 件 收集 等 数据 处 理 技术 ， 支 持 多 种 数据 
来 源 。 

> 提供 OLAP 分 析 、GIS、 分 布 式 图 挖掘 、 多 媒体 智能 分 析 、 报 表 、 搜 索引 擎 等 
各 种 数据 挖掘 和 分 析 工 具 ， 为 实现 大 数据 上 层 应 用 提供 完善 的 支撑 。 

> 屏蔽 Hadoop 底 层 技术 ， 提 供 标 准 API 接 口 ， 降 低 上 层 应 用 的 开发 难度 。 

第 三 ， 强 大 的 外 部 集成 能 力 ， 便 于 对 接 其 他 IT 系统 ， 保 护 已 有 投资 。 

> 对 上 层 的 应 用 ， 兼 容 SQL、WebService 等 接口 ， 方 便 与 现 有 IT 系统 集成 ， 降 
低 对 接 IT 系统 的 开发 工作 量 ， 实 现 平 滑 过 渡 。 

> 对 下 层 的 数据 ， 分 布 式 的 海量 数据 采集 组 件 支持 多 种 数据 源 接口 ， 方 便 与 各 

第 四 ， 灵 活 的 动态 扩展 能 力 ， 满 足 企业 长 期 发 展 需要 。 

> 大 数据 平台 提供 各 类 数据 分 析 、 挖 握 工 具 、 数 据 采 集 以 及 管理 组 件 ， 客 户 可 
自由 进行 裁剪 ， 可 以 在 初期 进行 最 简 功 能 和 最 小 规模 的 投入 ， 并 在 日 后 追加 
投入 ， 最 大 限度 地 节约 投资 。 

> 支持 在 线 动态 、 横 向 扩容 能 力 ， 增 加 存储 容量 和 计算 能 力 ， 同 时 不 中 断 业 务 
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运行 ， 避 免 传 统 扩容 方式 带 来 的 风险 ， 存 储 容量 和 系统 性 能 近似 线性 增长 。 
> 提供 集群 管理 工具 ， 全 自动 系统 安装 ， 可 自动 计算 参数 配置 ， 支 持 多 版 本 混 
用 和 在 线 扩容 功能 ， 存 储 容量 扩展 配置 可 在 分 钟 级 完成 ， 确 保 系统 的 快速 上 
线 、 运 维 。 
第 五 ， 具 有 良好 的 安全 性 、 可 用 性 、 可 维护 性 ， 保 证 售后 无 忧 。 
> 安全 性 : 中 兴 通 讯 大 数据 平台 提供 增强 的 Kerbos 安 全 机 制 ， 能 够 保证 只 有 受 
信 的 用 户 才能 访问 使 用 数据 和 服务 ， 同 时 在 服务 端 进行 了 有 效 的 数据 隔离 ， 
保证 不 同 的 用 户 对 于 数据 使 用 的 权限 严格 受 限 。 
> 可 用 性 : 采用 分 布 式 架构 ， 通 过 对 等 的 处 理 节 点 (计算 力 宛 余 )， 对 数据 采用 
多 副本 存储 的 机 制 ， 在 个 别 机 器 宕 机 时 实现 其 功能 由 其 他 正常 节点 自动 接 
管 ， 不 影响 整个 系统 对 外 服务 ， 具 有 极 高 的 可 用 性 。 
可 维护 性 : 自 研 大 数据 管理 子 系统 ， 提 供 全 方位 的 管理 和 维护 能 力 ， 包 括 各 
组 件 的 安装 、 配 置 、 监 控 和 系统 的 安全 、 日 志 、 告 警 、 性 能 统计 等 ， 系 统 可 
维护 性 大 幅度 提高 。 


13.3 某 银 行 成 功 案例 


13.3.1 背景 描述 


中 兴 通 讯 的 大 数据 平台 DAP 在 国内 某 银行 已 成 功 部 署 ， 本 章 后 续 将 针对 该 案例 
对 大 数据 部 署 方法 与 步骤 做 进一步 的 说 明 。 

大 数据 是 一 个 开放 的 平台 ， 当 前 大 部 分 系统 是 基于 互联 网 公司 的 开源 的 产品 而 
生 ， 但 银行 业 在 安全 性 、 稳 定性 、 高 可 用 、 安 全 私密 等 有 更 高 的 需求 ， 难 以 完全 照 
搬 互 联网 原生 技术 模式 。 所 以 ， 新 的 大 数据 技术 平台 必须 与 传统 行业 的 企业 级 特性 
相 融 合 。 例 如 ， 为 了 保证 稳定 性 ， 从 硬件 到 软件 都 需要 考虑 高 可 用 性 问题 。 

该 银行 的 大 数据 业务 基本 场景 如 下 : 

> 对 用 户 的 数据 进行 ETL 处 理 ， 通 过 MapReduce 完 成 ， 为 离线 应 用 。 

> 将 某 类 数据 进行 抽取 ， 放 入 到 数据 库 中 ， 对 外 提供 查询 ， 为 在 线 应 用 。 
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> 当 数据 越 来 越 多 时 ， 可 通过 增加 存储 服务 器 的 方式 进行 线性 扩展 。 


13.3.2 ”架构 设计 


综合 用 户 所 描述 的 业务 场景 ， 同 时 考虑 金融 行业 的 数据 高 安全 性 、 高 稳定 性 的 
特点 ， 中 兴 通 讯 依 托 大 数据 平台 系统 DAP 进 行规 划 设 计 ， 为 该 银行 提供 完整 的 大 数 
据 平 台 解决 方案 。 
首先 ， 由 于 该 银行 需要 进行 海量 数据 的 存储 ， 则 必须 部 署 HDFS， 并 且 该 组 件 是 其 
他 组 件 的 基础 其次， 用户 需 要 对 数据 进行 ETL 处 理 ， 则 需要 部 署 MapReduce(YARN); 
再 次 ， 由 于 需 提供 对 外 的 在 线 查询 ， 所 以 HBase 也 需要 进行 部 署 。 
综 上 ， 该 银行 需要 部 署 的 组 件 有 ZooKeeper、HDFS、HBase 和 MapReduce(YARN)。 
金融 业 的 特殊 性 要 求 我 们 必须 考虑 整体 服务 的 高 稳定 性 ， 所 以 各 关键 组 件 都 需 
要 考虑 高 可 用 实现 ， 实 现 方式 如 下 。 
> ZooKeeper: 选择 三 台 服 务 器 部 署 ， 为 集群 提供 协调 服务 。 
NameNode: 采用 QJM HA 方式 部 署 ， 选 择 两 台 服务 器 部 署 NameNode， 选 择 
三 台 服 务 器 部 署 JournalNode。 

> HBase: 配置 主 备 两 台 Hmaster， 主 备 倒 换 借助 ZooKeeper 实 现 ， 

> ResourceManager: 采用 HA 的 方式 部 署 。YARN 依 赖 于 HDFS 运 行 ， 故 部 署 
时 可 选择 将 ResourceManager 与 HDFS 的 NameNode 合 设 、 将 NodeMamager 与 
DataNode 合 设 的 方式 。 

> 业务 及 管理 数据 库 : 采用 分 布 式 数据 库 实 现 ， 一 般 选 择 三 台 机 器 做 分 布 式 数 
据 库 集群 的 部 署 。 

> HIVE, DAP-Manager: 分 别 配 置 两 台 作为 主 备 。 

在 项 目 组 与 该 银行 技术 部 门 进行 需求 沟通 后 ， 了 解 到 该 银行 的 业务 需要 区 分 
为 普通 业务 和 重点 业务 。 对 于 重点 业务 ， 不 仅 要 保证 数据 和 业务 的 安全 性 ， 还 要 
降低 业务 间 彼 此 的 相互 影响 ， 对 重点 业务 在 物理 层面 进行 隔离 。 基 于 此 需求 ， 项 
目 组 将 整个 机 群 设计 为 由 一 个 大 集群 和 若干 小 集群 组 成 ， 大 集群 用 于 进行 基础 数 
据 的 清洗 等 ETL 任 务 ， 再 将 处 理 后 的 数据 导入 到 小 集群 中 进行 处 理 ， 由 小 集群 专 享 该 
数据 。 

一 般 来 说 ， 每 个 集群 都 自 带 一 套 管 理 门户 ， 但 这 样 会 造成 维护 使 用 上 的 复杂 ， 
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所 以 为 了 降低 部 署 成 本 和 维护 复杂 性 ， 就 要 采用 单个 门户 管理 多 个 集群 的 方式 。 
DAP-Manager， 在 架构 设计 上 采用 单 门户 管理 多 集群 的 设计 ， 可 以 很 好 地 满足 该 部 
署 的 要 求 。 

另外 ， 在 重要 系统 的 实际 部 署 时 ， 整 套 系统 环境 可 分 为 生产 环境 和 测试 环境 。 
其 中 生产 环境 用 于 实际 运营 ， 承 载 真 实业 务 数据 和 业务 应 用 ;测试 环境 仅 用 于 各 种 
必要 的 功能 验证 和 性 能 测试 等 ， 包 括 应 用 在 上 线 前 的 功能 验证 。 

如 把 两 个 环境 合用 ， 将 带 来 很 多 不 确定 性 ， 测 试 环境 容易 对 生产 环境 造成 干 
扰 ， 影 响 生产 环境 正常 业务 的 提供 ， 甚 至 测试 环境 中 不 成 熟 的 应 用 和 业务 运行 时 
可 能 对 环境 造成 破坏 性 的 影响 。 因 此 项 目 组 在 实际 部 署 时 ， 对 两 个 环境 进行 物理 隔 
离 ， 两 者 独立 运行 ， 互 不 干扰 ， 防 止 因 硬件 资源 的 占用 或 者 抢夺 对 运行 造成 不 必要 
的 影响 。 此 项 措施 ， 有 力 地 保证 系统 运行 安全 和 资源 有 效 利用 ， 保 障 银行 安全 生产 
的 需要 。 

解决 了 生产 环境 与 测试 环境 可 能 造成 的 互相 干扰 问题 ， 接 下 来 还 要 考虑 各 种 不 
同类 型 应 用 的 部 署 和 运行 。 在 该 银行 的 应 用 场景 中 ， 大 数据 平台 上 运行 的 应 用 分 为 
在 线 应 用 和 离线 应 用 两 大 类 。 由 于 不 用 的 应 用 在 同一 套 物 理 集群 上 部 署 运 行 时 ， 同 
样 会 出 现 资源 竞争 的 情形 ， 所 以 大 数据 平台 就 必须 要 对 在 线 应 用 和 离线 应 用 的 运行 
提供 基本 的 运行 规划 ， 为 应 用 部 署 提 供 规划 规则 。 

规划 规则 1: 对 不 同 应 用 所 用 的 资源 需 进行 隔离 ， 解 决 在 线 类 应 用 和 离线 类 应 用 
运行 时 的 资源 争 抢 问题 。 

对 于 目前 的 业务 场景 ，MapReduce 任 务 、Hive 为 离线 应 用 ，HBase 服 务 为 在 线 应 
用 ， 提 供 实时 查询 服务 。 部 署 方式 如 图 13-2 所 示 。 


图 13-2 ”在 线 应 用 与 离线 应 用 资源 隔离 


集群 中 的 数据 都 是 基于 HDFS 进 行 存放 的 ， 因 此 对 于 属于 同一 个 集群 内 的 应 用 
的 数据 隔离 ， 可 通过 设置 不 同 的 HDFS 目 录 存 放 的 方式 实现 。 不 同 应 用 属于 不 同 的 用 
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户 ， 不 同 的 应 用 使 用 不 同 的 目录 ， 然 后 通过 对 目录 进行 权限 配置 的 方式 进行 隔离 和 
共享 。 

规划 规则 2: 不 同 应 用 运行 时 需 考虑 计算 资源 的 隔离 ， 以 及 运行 时 内 存 和 CPU 的 
调度 。 当 前 主要 采用 “yarn 自 动 均衡 ”与 “调度 器 指定 ”这 两 种 手段 解决 此 问题 。 

由 于 MapReduce 任 务 运行 时 往往 会 占用 大 量 的 CPU 和 磁盘 资源 ， 为 保证 自身 或 者 
其 他 任务 的 正常 执行 ， 对 MapReduce 也 要 进行 隔离 。 

对 于 普通 MapReduce 任 务 的 隔离 通过 Yarn 自 身 的 机 制 完成 。 在 Yarn 中 ， 资 源 管 
理由 ResourceManager 和 NodeManager 共 同 完成 ， 其 中 ResourceManager 中 的 调度 器 
负责 资源 的 分 配 ，NodeManager 负 责 资 源 的 供给 和 隔离 。ResourceManager 将 某 个 
NodeManager 上 的 资源 分 配给 任务 后 ，NodeManager 按 照 要 求 为 任务 提供 相应 的 资 
源 ， 保 证 这 些 资源 具有 独占 性 ， 为 任务 运行 提供 基础 的 保证 。 

另外 MapReduce 任 务实 时 性 要 求 不 高 ， 可 通过 为 各 个 MapReduce 任 务 单独 规划 运 
行 时 间 段 的 方式 来 辅助 隔离 ， 避 免 多 个 应 用 同时 运行 时 出 现 资源 抢占 的 情况 。 其 中 
对 于 任务 的 执行 时 间 ， 需 要 通过 先 在 测试 环境 中 运行 采集 ， 再 通过 等 比例 推算 评估 
的 方式 获得 ， 防 止 出 现 某 个 MapReduce 任 务 的 实际 运行 时 间 超 出 了 配置 时 间 。 

而 对 于 某 些 用 户 认为 重要 或 者 特殊 (由 用 户 自主 决定 ) 的 MapReduce 任 务 的 隔离 
可 通过 设置 专用 调度 器 的 方式 完成 。 为 应 用 设 定 调度 队列 ， 并 为 队列 指定 专属 服务 
器 ， 通 过 将 MapReduce 任 务 指定 在 某 台 服务 器 上 运行 的 方式 达到 隔离 的 目的 。 而 其 他 
普通 的 MapReduce 应 用 则 无 权 使 用 该 专属 服务 器 的 资源 。 

规划 规则 3: 对 不 同 功能 的 在 线 服 务 数据 进行 隔离 ， 保 证 重点 在 线 应 用 的 正常 
运行 。 

需要 单独 规划 HBase 集 群 ， 且 该 集群 基于 一 套 独 立 的 HDFS 运 行 ， 从 物理 上 和 风 
辑 上 和 其 他 在 线 集群 都 进行 隔离 。 该 HBase 集 群 的 数据 来 源 问 题 可 通过 两 种 方式 解 
决 : 接口 程序 或 者 基于 distcp 的 集群 拷贝 。 

对 于 少量 的 数据 迁移 可 通过 接口 程序 实现 ， 对 于 大 量 的 数据 迁移 可 通过 distcp 
的 方式 进行 。 后 者 需要 先 在 离线 应 用 服务 集群 内 对 数据 进行 处 理 ， 生 成 HFile 文 
件 ， 通 过 distcp 将 文件 拷贝 到 在 线 应 用 集群 ， 再 在 在 线 应 用 集群 内 执行 数据 导入 到 
HBase 的 操作 。 最 后 在 线 应 用 服务 基于 导入 的 数据 对 外 提供 实时 查询 服务 ， 具 体 如 
图 13-3 所 示 。 
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图 13-3 ”资源 隔离 集群 的 数据 迁移 方式 


另外 ， 由 于 MapReduce 任 务 在 运行 时 对 磁盘 、CPU 等 要 求 较 高 ， 当 MapReduce 
的 Job 和 HBase 等 部 署 在 一 台 服 务 器 运行 时 ， 容 易 对 HHBase 服 务 造成 影响 (响应 很 
慢 ， 长 时 间 等 待 )。 所 以 在 同一 套 HDFS 内 ， 在 服务 器 比较 充足 的 情形 下 ， 也 建议 对 
MapReduce 任 务 的 运行 和 HBase 服 务 进 行 隔离 。 将 HBase 服 务 指定 在 集群 中 的 某 些 服 
务 器 上 运行 ，MapReduce 任 务 指 定 在 集群 中 的 其 他 服务 器 上 运行 。 其 通过 部 署 不 同 的 
基础 服务 在 不 同 的 服务 器 上 的 方式 来 实现 。 

为 了 节省 资源 ， 下 面 提供 了 一 种 基于 一 套 HDFS 来 实现 对 多 套 HBase 支 撑 的 实 
现 ， 不 同 的 HBase 共 用 一 套 ZooKeeper， 部 署 方 式 见 图 13-4。 


( 客户 端 ! ) 【客户 端 】 (eras) 
rt 


@ 
@ 
SO) 


图 13-4 所 有 HBase 集 群 基于 一 套 HDFS 支 撑 的 部 署 方式 


所 有 HBase 集 群 基于 同一 套 ZooKeeper 实 现 ， 每 个 集群 包含 各 自 的 HMaster 和 
Region Server， 可 对 外 独立 提供 在 线 查 询 服 务 。 通 过 调用 HBase java api 实 现 HBase 客 
户 端 访问 集群 内 的 HBase 集 群 。 由 于 使 用 相同 的 HDFS 存 储 ， 为 了 防止 相同 的 表 存 储 
空间 重合 ， 不 同 的 HBase 集 群 使 用 不 同 的 存储 路 径 。 同 时 为 了 区 分 ZooKeeper 中 存储 
的 rootdnode 路 径 ， 也 需要 修改 配置 文件 。 不 同 的 HBase 集 群 对 外 提供 不 同类 型 的 数据 
查询 服务 。 对 于 同一 个 HBase 服 务 ， 可 通过 对 列 和 表 的 所 属 权 配置 实现 对 HBase 的 访 
问 控制 。 
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13.3.3 ”实际 部 署 


该 银行 的 实际 部 署 如 图 13-5 所 示 ， 大 数据 平台 上 运行 的 应 用 分 为 在 线 应 用 
(HBase 服 务 ) 和 离线 应 用 (MapReduce 服 务 ) 两 大 类 。 该 银行 大 数据 平台 分 为 基础 大 集群 
和 在 线 集群 两 大 部 分 。 


RegionServer Rey ps vor papal er RegionServor We 


Meteode es ode paren ha pare tote *DataNode DataNode 


大 集群 
图 13-5 ” 某 集团 的 实际 部 署 图 
> 基础 集群 用 于 接收 外 部 导入 的 数据 ， 并 对 数据 进行 加 工 处 理 ， 主 要 通过 
MapReduce 任 务 对 数据 进行 基础 加 工 。 
> 在 线 集群 是 为 保证 重点 在 线 应 用 的 正常 运行 而 单独 规划 的 区 域 ， 第 一 期 是 由 
历史 数据 平台 1 个 HBase 集 群 构成 ， 后 期 再 扩展 个 人 综合 对 账单 系统 以 及 反 洗 
钱 风 险 管理 系统 。 
对 于 基础 集群 和 在 线 集群 ， 其 相互 关系 具体 如 下 。 
> 每 个 集群 都 基于 一 套 独 立 的 HDFS 运 行 ， 无 论 是 物理 上 还 是 逻辑 上 ， 都 与 其 
他 集群 进行 隔离 。 在 线 集群 的 数据 都 来 源 于 基础 集群 ， 依 靠 本 地 万 兆 网 实现 
高 效 的 传输 。 在 线 应 用 服务 基于 导入 的 数据 对 外 提供 实时 查询 服务 。 
> 基础 集群 以 及 历史 数据 平台 集群 各 自 基于 一 套 ZooKeeper 实 现 ， 每 个 集群 包 
含 各 自 的 Master 和 RegionServer。 
整个 集群 中 部 署 一 套 CBDP-Manager 用 于 实现 集群 的 管理 ， 并 且 该 Manager 单 独 
使 用 一 套 单机 MariaDB 实 现 管理 数据 、 告 警 数据 、 性 能 数据 的 存储 。 
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13.3.4 交付 效果 


基于 中 兴 DAP 大 数据 平台 的 系统 方案 在 短 时 间 内 完成 部 署 ， 部 署 后 一 直 平稳 运 
行 ， 获 得 了 客户 的 称赞 ， 并 且 客 户 将 该 项 目 树立 为 集团 内 的 典型 项 目 案例 。 

在 该 项 目的 后 续 扩容 中 ， 由 于 前 期 的 规划 与 架构 的 合理 性 ， 整 体 扩容 非 常 方便 
简洁 ， 在 短 时 间 内 即 完成 了 扩容 升级 与 业务 上 线 。 


— 22 — 


大 数据 染 构 师 招展 


Boss3K 4 A AAA, FRA RAT HE Cb WR AT, HD aE 
vk, 感觉 自 己 就 是 大 数据 达 人 。 

一 天 ，Boss 参 加 一 场 商务 会 谈 回来 后 ， 脸 黑 得 如 同 夏天 里 的 乌云 。“ 小 明 ， 今 
天 有 个 客户 对 我 很 不 客气 ， 说 他 们 准备 搞 NewSQL ， 对 我 们 的 大 数据 方案 不 care。 
NewSQL 是 个 什么 鬼 ? 怎么 以 前 你 从 来 没有 对 我 讲 过 ? ” 

小 明 立 即 明 白 了 Boss 的 困扰 。“Boss， 有 几 项 技术 (或 概念 ) 严 格 来 说 不 算 大 数 
据 的 范畴 ， 但 它们 与 大 数据 之 间 有 密切 的 关系 ， 经 常 需 要 在 方案 中 整体 考虑 这 些 技 
术 。 没 想到 我 的 课程 还 没有 开发 完 呢 ， 您 就 跑 出 去 与 别人 PK ， 都 怪我 没有 跟 您 说 
清楚 。” 

于 是 ， 小 明 又 加 班 加 点 地 将 这 些 相关 技术 总 结 成 一 份 简要 的 报告 ， 供 团队 成 员 
与 Boss 学 习 。 
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大 数据 不 是 一 夜间 火热 起 来 的 ， 其 整个 概念 的 爆发 ， 和 分 布 式 系统 的 发 展 及 成 
熟 是 离 不 开 的 ， 分 布 式 技 术 是 大 数据 的 技术 基础 ， 而 大 数据 是 分 布 式 技 术 进步 过 程 
中 ， 从 量变 到 质变 的 一 个 积累 结果 ， 是 分 布 式 技 术 在 数据 分 析 处 理 行业 的 最 佳 实践 。 
让 小 明 带 着 大 家 回顾 分 布 式 技术 发 展 的 历程 ， 从 而 揭示 分 布 式 与 大 数据 的 关系 。 


14.1 分 布 式 系统 概述 


14.1.1 定义 


分 布 式 系统 是 若干 独立 计算 机 的 集合 ， 但 这 些 计 算 机 系统 集合 从 用 户 的 使 用 角 
度 来 说 ， 则 是 一 个 单一 的 应 用 系统 。 组 建 一 个 分 布 式 系统 具备 5 个 关键 目标 : 

> 资源 的 可 访问 性 ， 用 户 能 够 方便 地 访问 远程 资源 ， 并 且 可 以 以 一 种 受 控 的 方 
式 与 其 他 用 户 共享 资源 ; 

> 透明 性 ， 资源 在 网 络 上 的 分 布 对 用 户 不 可 见 ， 用 户 的 使 用 体验 就 是 在 一 个 入 
口 做 操作 ; 

> 开放 性 ， 系 统 通过 一 整套 标准 化 的 接口 来 提供 服务 ， 任 何 第 三 方 系统 都 可 以 
通过 该 标准 接口 接 入 该 系统 ， 并 使 用 其 提供 的 服务 ; 

> 可 扩展 性 ， 系 统 在 规模 上 可 以 扩展 ， 可 以 方便 地 增加 资源 来 为 更 多 的 用 户 提 
供 服 务 ; 

> 容错 性 ， 系 统 可 以 从 部 分 失效 中 自动 恢复 ， 而 且 不 会 严重 影响 整体 性 能 。 特 
别 是 ， 当 故障 发 生 时 ， 分 布 式 系统 应 该 在 进行 故障 恢复 的 同时 依然 可 以 提 
供 基本 的 操作 能 力 。 也 就 是 说 ， 它 应 该 能 容忍 错误 ， 在 发 生 错 误 时 某 种 程 
度 上 可 以 继续 工作 。 
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14.1.2 MRR 


1. 分 布 式 系统 和 集群 系统 


从 广义 上 来 说 ， 分 布 式 系统 和 集群 系统 的 关系 ， 就 像 车 和 越野 车 的 关系 。 集 群 
通常 是 由 一 个 公司 管理 的 系统 。 集 群 通常 有 很 低 的 延迟 和 一 致 的 服务 器 硬件 ， 而 分 
布 式 系统 则 五 花 八 门 。 甚 至 一 个 javaScript 客 户 端 和 一 个 PHP 的 服务 端 一 起 组 成 的 系 
统 就 可 以 被 称 为 分 布 式 系统 。 通 常 分 布 式 系统 具有 高 延迟 和 失败 无 法 预测 的 情况 。 
而 构建 集群 的 目的 是 通过 使 用 可 靠 的 硬件 和 更 好 的 网 络 连接 来 防止 这 些 问题 。 但 集 
群 系统 依然 是 一 个 分 布 式 系统 ， 就 像 越 野 车 依然 是 有 4 个 轮子 和 1 个 发 动机 的 车 一 样 。 

从 狭义 上 来 说 ， 分 布 式 系统 中 的 每 个 服务 器 都 有 自己 唯一 的 数据 ， 而 集群 服务 
器 有 相同 的 数据 。 分 布 式 系统 中 所 有 服务 器 都 可 能 互相 通讯 ， 而 集群 服务 器 相对 独 
立 ， 很 少 相 互通 讯 。 分 布 式 是 并 联 工作 的 ， 集 群 是 串联 工作 的 。 分 布 式 是 指 将 不 同 
的 业务 分 布 在 不 同 的 地 方 。 而 集群 指 的 是 将 几 台 服务 器 集中 在 一 起 ， 服 务 于 同一 业 
务 。 分 布 式 是 以 缩短 单个 任务 的 执行 时 间 来 提升 效率 的 ， 而 集群 则 是 通过 提高 单位 
时 间 内 执行 的 任务 数 来 提升 效率 。 

如 果 一 个 任务 由 10 个 子 任务 组 成 ， 每 个 子 任务 单独 执行 需 1 小 时 ， 则 在 一 台 服务 
器 上 执行 该 任务 需 10 小 时 。 

采用 分 布 式 方案 ， 提 供 10 台 服务 器 ， 每 台 服务 器 只 负责 处 理 一 个 子 任务 ， 不 考 
虑 子 任务 间 的 依赖 关系 ， 执 行 完 这 个 任务 只 需 一 个 小 时 (这 种 工作 模式 的 一 个 典型 代 
表 就 是 Hadoop 的 Map/Reduce 分 布 式 计算 模型 )。 

而 采用 集群 方案 ， 同 样 提供 10 台 服务 器 ， 每 台 服务 器 都 能 独立 处 理 这 个 任务 。 
假设 有 10 个 任务 同时 到 达 ，10 个 服务 器 将 同时 工作 ，10 小 时 后 ，10 个 任务 同时 完 
成 ， 这 样 ， 整 体 来 看 ， 还 是 1 小 时 内 完成 一 个 任务 。 


2. 垂直 扩展 和 水 平 扩展 


一 个 应 用 系统 增加 更 多 资源 的 方法 分 为 两 类 ， 即 水 平 扩展 和 垂直 扩展 。 

(1) 水 平 扩展 Scale Horizontally(or Scale Out): 给 系统 增加 更 多 的 节点 ， 例 如 给 一 
个 分 布 式 应 用 系统 增加 一 个 新 的 计算 机 。 这 种 方式 扩展 非常 简单 ， 尤 其 是 使 用 虚拟 
化 技术 和 云 技术 时 更 容易 。 但 是 其 管理 复杂 ， 理 解 和 开发 难度 更 高 。 
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(2) 垂直 扩展 Scale Vertically(or Scale Up): 给 系统 增加 节点 或 者 更 换 硬 件 ， 例 如 
给 单独 的 一 个 节点 增加 额外 的 CPU 和 内 存 。 这 种 方式 操作 非常 简单 ， 但 是 扩展 成 本 
很 高 ， 需 要 大 且 昂 贵 的 节点 (通常 是 中 /大 型 计算 机 )。 


3. 并 发 和 并 行 


并 发 (Concurrency): 并 发 是 指 在 一 个 时 间 点 同时 存在 的 动作 /事务 /线程 数量 ， 偏 
重 存在 ， 是 并 行 的 一 种 更 普遍 的 形式 ， 包 含 采用 时 间 片 方式 的 虚拟 并 行 的 情况 。 一 
般 单 CPU 系 统 无 法 同时 执行 两 个 或 者 两 个 以 上 的 任务 ， 但 是 允许 任务 同时 存在 。 

并 行 (Parallelism): 并 行 是 指 在 一 个 时 间 点 同时 运行 的 动作 /任务 /事务 /线程 /进程 
数量 ， 只 有 多 核 或 者 多 个 CPU 才能 发 生 并 行 。 


4. CAP 理 论 


CAP 理 论 是 分 布 式 系统 开发 的 基础 ， 是 由 Eric Brewer 提 出 的 分 布 式 系统 中 最 重要 
的 理论 之 一 。CAP 的 定义 很 简单 ，CAP 三 个 字母 分 别 代表 了 分 布 式 系 统 中 三 个 相互 
矛盾 的 属性 。 
> Consistency( 一 致 性 ): 所 有 分 布 式 系 统 节点 在 同一 时 间 看 到 的 数据 是 完全 相 
同 的 ， 这 里 的 数据 一 致 性 特 指数 据 的 强 一 致 性 。 
> Availability( 可 用 性 ): 每 一 个 请 求 ， 无 论 是 成 功 还 是 失败 ， 都 会 保证 收 到 响 
应 。 这 里 指 系统 具备 百分之百 的 可 用 性 。 
> Partition Tolerance( 分 区 容忍 性 ): 部 分 系统 失效 或 者 分 布 式 系统 之 间 消 息 的 丢 
失 ， 不 影响 整个 分 布 式 系统 的 操作 ， 这 主要 体现 整个 系统 的 容错 性 。 
CAP 理 论 意味 着 无 法 设计 一 种 分 布 式 协议 ， 使 得 同时 完全 具备 CAP 三 个 属性 : 
> 该 种 协议 下 的 数据 始终 是 强 一 致 性 的 ; 
> 该 协议 下 系统 的 服务 始终 是 可 用 的 ; 
> 协议 可 以 容忍 任何 网 络 分 区 异常 ， 具 备 高 容错 性 ， 分 布 式 系统 协议 只 能 在 
CAP 这 三 者 中 间 有 所 折 中 。 
热力 学 第 二 定律 说 明了 永 动机 是 不 可 能 存在 的 ， 不 要 去 妄图 设计 永 动 机 。 与 之 
类 似 ，CAP 理论 的 意义 就 在 于 明确 提出 了 不 要 去 妄图 设计 一 种 对 CAP 三 大 属性 都 支 
持 的 完美 系统 ， 因 为 这 种 系统 在 理论 上 就 已 经 被 证 明 不 存在 。 
如 图 14-1 所 示 的 是 一 个 有 两 个 节点 的 分 布 式 系统 ， 假 设 应 用 A 和 应 用 B 运 行 在 两 
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个 区 域 的 服务 器 N1 和 N2 上 。 应 用 A 执行 写 数 据 到 d， 同 时 应 用 B 从 一 个 副本 读 取 数 

据 。 数 据 的 同步 是 通过 服务 器 N1 发 送 同步 消息 到 服务 器 N2 来 完成 的 。 当 客户 端 发 送 

一 个 存储 数据 命令 去 更 新 数据 d 时 ， 应 用 A 会 接收 到 请 求 并 写 入 其 本 地 资源 库 中 ， 服 

务 器 N1 则 会 发 送 复制 消息 来 用 新 的 数据 d 来 蔡 换 老 的 数据 d'。 接 下 来 客户 端 人 N2 读 取 
到 更 新 的 数据 。 在 这 种 理想 情况 下 ， 这 个 分 布 式 系统 是 具备 一 致 性 的 。 


数据 存储 客户 端 数据 获取 
应 用 A 
写 服 


的 1 N1| 复制 消息 M 


主 存储 节点 d 备份 存储 节点 d 
图 14-1 分 布 式 CAP 操 作 过 程 


可 以 针对 一 些 异常 情况 来 对 CAP 理 论 做 简单 的 反 证 ， 现 在 假定 N1 发 送 到 N2 的 同 
步 消息 丢失 。 

(1) 如 果 我 们 想 让 系统 具备 故障 容忍 能 力 ， 则 整个 系统 必须 运行 ， 只 是 副本 上 的 数 
据 还 是 旧 的 ， 这 样 客户 端 读 取 的 是 旧版 本 的 数据 ， 这 样 整 个 系统 就 无 法 保持 一 致 性 ; 

(2) 如 果 我 们 要 保证 整个 系统 的 一 致 性 ， 则 需要 N1 同 步 写 操作 和 复制 消息 M 为 同 
一 个 原子 事务 ， 这 样 就 需要 等 待 N2 对 复制 消息 的 确认 ，N2 的 确认 消息 的 响应 时 间 是 
不 确定 的 ， 从 而 使 得 整个 系统 在 这 段 时 间 不 可 用 。 

基于 上 述 分 析 可 以 看 出 ，CAP 理 论 告诉 我 们 ， 在 大 规模 分 布 式 系统 中 ， 我 们 必 
须 在 可 用 性 和 一 致 性 之 间 权 衡 。 在 最 终 一 致 性 模型 中 ， 复 制 消息 是 异步 的 ，N1 如 果 
没有 收 到 确认 ， 则 会 重新 发 送 消息 直到 N2 的 副本 和 N1 一 致 ， 同 时 客户 端 要 处 理 这 种 
暂时 不 一 致 的 状态 。 

对 于 大 多 数 web 应 用 ， 其 实 并 不 需要 强 一 致 性 ， 因 此 牺牲 一 致 性 而 换取 高 可 用 
性 ， 是 目前 多 数 分 布 式 数据 库 产品 的 方向 。 


5. 强 一 致 性 和 最 终 一 致 性 
副本 (Replica/Copy) 指 在 分 布 式 系统 中 为 数据 提供 备份 。 数 据 副本 指 在 不 同 的 节 
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点 上 存储 相同 的 数据 。 分 布 式 系统 通过 副本 控制 协议 ， 使 得 从 系统 外 部 读 取 系统 内 
部 的 各 个 副本 数据 在 一 定 的 约束 条 件 下 相同 ， 称 之 为 副本 一 致 性 (Consistency)。 

例如 : 某 系 统 有 3 个 副本 ， 某 次 更 新 数据 完成 了 其 中 2 个 副本 的 更 新 ， 第 3 个 
副本 由 于 异常 而 更 新 失败 ， 此 时 仅 有 2 个 副本 的 数据 是 一 致 的 ， 但 该 系统 通过 副本 
协议 使 得 外 部 用 户 始 终 只 读 更 新 成 功 的 第 1、2 个 副本 ， 不 读 第 3 个 副本 ， 从 而 对 于 
外 部 用 户 而 言 ， 其 读 到 的 数据 始终 是 一 致 的 。 

常用 的 副本 一 致 性 分 为 下 面 两 个 种 类 。 

(1) 强 一 致 性 (Strong Consistency): 在 任何 时 刻 所 有 的 用 户 或 者 进程 查询 到 的 都 
是 最 近 一 次 成 功 更 新 的 数据 。 强 一 致 性 是 程度 最 高 的 一 致 性 要 求 ， 也 是 实践 中 最 难 
以 实现 的 一 致 性 。 对 于 关系 型 数据 库 ， 要 求 更 新 过 的 数据 能 被 后 续 的 访问 看 到 ， 这 
就 是 强 一 致 性 。 

(2) 最 终 一 致 性 Eventual Consistency): 和 强 一 致 性 相对 ， 在 某 一 时 刻 用 户 或 者 进 
程 查询 到 的 数据 可 能 不 同 ， 但 是 最 终 成 功 更 新 的 数据 都 会 被 所 有 用 户 或 者 进程 查询 
到 。 当 前 主流 的 NOSQL 数 据 库 都 是 采用 这 种 一 致 性 策略 。 


14.1.3 “分布 式 系统 体系 结构 


把 分 布 式 系统 的 逻辑 组 织 结构 看 作 软 件 组 件 来 分 析 其 体系 结构 ， 则 通常 分 布 式 
系统 可 以 划分 为 以 下 4 种 体系 架构 。 

(1) 基于 分 层 的 体系 架构 ， 组 件 组 成 不 同 的 层 ， 各 层 的 请 求 自 顶 向 下 依次 调用 ， 
而 请 求 结果 则 从 下 往 上 。 如 图 14-2 基于 分 层 的 体系 架构 所 示 ，TCP/P 协 议 的 模型 是 
这 种 体系 架构 的 经 典 。 


请 求 y 不 响应 


图 14-2 ”基于 分 层 的 体系 架构 
(2) 基于 对 象 的 体系 架构 ， 是 一 种 很 松散 的 组 织 结构 ， 每 个 对 象 是 一 个 组 件 ， 组 
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件 间 通 过 远程 过 程 调用 机 制 来 交互 。 图 14-3 基 于 对 象 的 体系 架构 所 示 ， 大 型 软件 多 采 
用 本 架构 。 


图 14-3 ”基于 对 象 的 体系 架构 


(3) 基于 数据 的 体系 架构 ， 组 件 间 的 通信 通过 一 个 公用 的 数据 仓库 。 图 14-4 为 基 
于 数据 的 体系 架构 ， 基 于 web 的 分 布 式 系统 大 多 数 是 以 数据 为 中 心 的 。 


组 件 组 件 


| I] 
数据 读 取 数据 存 取 


共享 数据 存储 


图 14-4 ”基于 数据 的 体系 架构 


(4) 基于 消息 的 体系 架构 ， 组 件 间 的 通信 是 通过 消息 来 传播 的 ， 进 程 间 是 松 耦 合 
的 。 图 14-5 为 基于 消息 的 体系 架构 ， 通 常 的 发 布 /订阅 系统 都 属于 这 类 。 


组 件 组 件 


Ly 
消息 


组 件 
图 14-5 ”基于 消息 的 体系 架构 


14.1.4 ”分 布 式 系统 演进 


最 出 名 的 分 布 式 计算 模型 就 是 Internet， 它 是 所 有 分 布 式 技术 的 基础 ， 从 电子 商 
务 、 云 计算 、 面 向 服务 到 虚拟 化 ， 再 到 大 数据 。 所 有 的 分 布 式 计算 模型 都 有 一 个 相 
同 的 特性 : 他们 是 一 群 协同 工作 的 网 络 计算 机 。 
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总 体 上 说 ， 整 体 分 布 式 系统 的 演进 是 从 封闭 到 开放 的 过 程 ， 是 一 个 不 断 标 准 化 

早期 是 美国 国防 部 先进 研究 项 目 局 (DARPA) 的 内 部 网 络 和 一 些 私 企 的 远程 过 程 
调用 (RPC) 系 统 ， 慢 慢 地 ，TCP/IP 协 议 的 发 展 和 被 广泛 应 用 ， 这 最 终 夯 实 了 分 布 式 系 
统 的 基础 。 

每 个 厂商 和 标准 组 织 都 在 发 展 自己 的 远程 过 程 调用 (RPC) 系 统 ， 这 使 得 任何 一 家 
公司 都 无 法 创建 一 个 通用 的 分 布 式 计算 标准 。20 世 纪 90 年 代 中 期 ，Internet 协 议 蔡 代 
了 这 些 早 期 的 尝试 ， 并 成 为 今天 分 布 式 计算 的 基础 。 整 个 演进 过 程 如 图 14-6 分 布 式 计 
算 演 进 过 程 所 示 。 


1982 年 分 布 式 计算 原理 研讨 | 。 |1991 年 通用 对 象 请 求 代理 
会 (PODC) 架构 (CORBA): 分 布 式 计 
1964 年 ， _ 1985 年 分布 式 计算 国际 研讨 | [OMe Sule 
IBM System/360 大 型 机 会 DISO 1993 年 分 布 式 计算 对 象 模型 移动 技术 和 大 数据 出 现 ， 
19654 hal (DCOM): 微软 Windows 平 台 | 网 络 计算 和 云 计 算 成 为 分 布 
ET， Intermet 的 前 身 | |1988 年 DEC 系 统 研究 中 心 设 | | 的 分 布 式 计算 方案 式 计算 的 趋势 
tm 立 第 一 个 分 布 式 计算 项 目 1993 年 集群 ， 小 计算 机 可 以 
‘RRS 和 服务 器 互联 成 为 一 个 超级 
工作 站 服务 器 计算 机 
个 人 电脑 1998 年 点 对 点 网 络 
1960s 1990S 初 1990S 末 
1960s 1980s 1990S 中 2000-now 
ARPANET Email: ei 基于 Internet 的 计算 和 
i 趟 应 被 称 作 两 层 架构 ， 第 一 WEB 服 务 : 
大 规模 分 布 式 应 用 前 又 | | 层 是 客户 端 ， 主 要 是 界 使 用 URLs 来 调用 来 自 
局 域 网 (Ethernet) 面 ， 第 二 层 是 数据 库 和 Internet 的 服务 
第 一 个 分 布 式 计算 程序 | | 数据 存储 HTTP 和 XML 发 明 
第 一 个 计算 机 病毒 广泛 应 用 在 ERP 系 统 让 而 而 调 肌 问题 
局 域 网 支持 更 大 的 流量 se alta 
图 14-6 “分 布 式 计算 演进 过 程 
典型 的 分 布 式 系统 案例 具体 如 下 。 


> 电信 通信 和 网络: 电话 网 络 和 蜂窝 网 络 ， 计 算 机 网 络 (Intemet)， 无 线 传感器 网 络 。 

> 网 络 应 用 : 广域网 和 点 对 点 网 络 ， 在 线 游戏 和 虚拟 现实 社区 ， 分 布 式 数据 
库 ， 网 络 文件 系统 。 

> 实时 控制 系统 : 飞机 控制 系统 ， 工 业 控制 系统 。 

> 并 行 计算 : 科学 计算 (包括 集群 计算 和 网 格 计算 )， 计 算 机 图 形 的 分 布 式 
泻 染 。 
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14.2 ”分布 式 系统 关键 协议 和 算法 概述 


在 分 布 式 系统 中 计算 节点 和 存储 节点 可 以 在 同一 台 物 理 机 器 上 ， 也 可 以 位 于 
不 同 的 物理 机 器 。 如 果 二 者 位 于 不 同 的 物理 机 器 上 ， 则 计算 的 数据 需要 通过 网 络 传 
输 ， 明 显 这 种 方式 的 网 络 开销 很 大 ， 甚 至 网 络 带宽 会 成 为 系统 的 总 体 瓶 项。 为 了 解 
决 这 个 问题 ， 业 界 采 用 被 称 为 本 地 化 计算 的 方法 ， 也 就 是 将 计算 调度 到 与 存储 节点 
在 同一 台 物 理 机 器 上 进行 。 本 地 化 计算 体现 了 一 种 重要 的 分 布 式 调度 思想 : “移动 
数据 不 如 移动 计算 ”， 通 俗 说 就 是 计算 跟着 数据 走 。 

当 数 据 分 布 到 多 个 物理 节点 后 ， 必 须 对 每 份 数据 建立 副本 ， 数 据 副 本 指 在 不 
同 的 节点 上 存储 相同 的 数据 ， 这 样 可 以 保证 某 一 节点 异常 时 ， 可 从 其 他 副本 读 取 数 
据 ， 同 时 在 负载 很 大 时 ， 分 散 的 副本 数据 可 以 起 到 负载 分 担 的 作用 。 数 据 副本 是 分 
布 式 系统 解决 数据 丢失 异常 的 唯一 手段 。 对 分 布 式 系统 来 说 ， 维 持 多 副本 主要 是 为 
了 提升 系统 的 可 靠 性 和 性 能 。 如 果 一 个 文件 系统 已 建立 多 个 数据 副本 ， 则 当 一 个 副 
本 被 破坏 后 ， 文 件 系统 只 需要 转换 到 另 一 个 数据 副本 就 可 继续 运转 ， 从 而 使 得 系统 
更 加 可 靠 。 同 样 ， 当 分 布 式 系统 需要 进行 扩展 时 ， 副 本 对 于 提高 性 能 也 是 非常 重要 
的 ， 通 过 对 数据 进行 复制 ， 让 他 们 分 担 工作 负荷 ， 就 可 以 提高 性 能 。 虽 然 复制 能 提 
升 系统 的 可 靠 性 和 性 能 ， 但 是 复制 是 有 代价 的 。 首 先 ， 维 持 多 副本 需要 更 多 的 存储 
空间 ， 所 有 副本 的 更 新 需要 更 多 的 网 络 带 宽 ， 另 外 ， 多 个 副本 可 能 导致 一 致 性 方面 
的 问题 ， 一 旦 某 个 副本 被 修改 了 ， 那 么 它 将 不 同 于 其 他 所 有 的 副本 。 因 此 ， 必 须 对 
所 有 副本 进行 同样 的 修改 以 确保 一 致 性 。 

综 上 ， 一 个 分 布 式 系统 的 关键 协议 和 算法 主要 有 两 类 : 

> 如 何 拆 解 分 布 式 系统 的 输入 数据 ， 即 数据 的 分 布 方式 ; 

> 数据 的 多 副本 如 何 保证 其 一 致 性 。 


14.2.1 数据 分 布 方式 


对 系统 的 输入 数据 进行 分 解 并 分 布 到 不 同 的 节点 的 方式 就 是 数据 的 分 布 方式 ， 
通常 采用 下 面 的 方法 。 
(1) 哈 希 方式 。 哈 希 方式 是 最 常见 的 数据 分 布 方式 ， 其 方法 是 按照 数据 的 某 一 特 
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征 计算 哈 希 值 ， 并 将 哈 希 值 与 机 器 中 的 机 器 建立 映射 关系 ， 从 而 将 不 同 哈 希 值 的 数 
据 分 布 到 不 同 的 机 器 上 。 所 谓 数据 特征 可 以 是 key-value 系 统 中 的 key， 也 可 以 是 其 他 
与 应 用 业务 逻辑 相关 的 值 。 图 14-7 哈 希 算法 数据 分 布 示意 图 给 出 了 哈 希 方式 分 数据 
的 一 个 例子 ， 将 数据 按 哈 希 值 分 配 到 3 个 节点 上 。 


取 3 的 模 ， 余 数 0 3||16|9 


取 3 的 模 ， 余 数 2 2||15| |8 


节点 3 


图 14-7” 哈 希 算法 数据 分 布 示 意图 

(2) 按 数 据 范围 分 布 。 按 数据 范围 分 布 是 另 一 种 常见 的 数据 分 布 方式 ， 将 数据 按 
特征 值 的 值 域 范围 划分 为 不 同 的 区 间 ， 使 得 集群 中 每 台 (组 ) 服 务 器 处 理 不 同 区 间 的 数 
据 。 图 14-8 按 数据 范围 分 布 的 示意 图 展示 了 这 种 数据 的 发 布 方式 。 


1 

=) 
|? | 节点 1 
3 
la | 
15 | 取 3 的 模 ， 余 数 1 1/4 
一。 
6 7 1110 
[了 节点 2 
|s | 
|9| 
|1o| 


—, 1|[2][3 
{2 | 节点 1 
3 
: 4||5 
[5] 7 
rales 6||7 
17 节点 2 
8 
9 = 8 || 9 |] 10 
10 节点 3 
图 14-8 ” 按 数 据 范围 分 布 的 示意 图 


(3) 按 数据 量 分 布 。 按 数据 量 分 布 数据 与 具体 的 数据 特征 无 关 ， 而 是 将 数据 视 为 
一 个 顺序 增长 的 文件 ， 并 将 这 个 文件 按照 某 一 较为 固定 的 大 小 划分 为 若干 数据 块 ， 
不 同 的 数据 块 分 布 到 不 同 的 服务 器 上 。 图 14-9 按 数据 量 分 布 的 示意 图 就 是 一 个 简单 
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的 样 例 。 


假设 数据 从 1 到 10 顺 序 存 储 


1 

2 

3] 1、4、7、10 1\|4 
4 一 一 一 > 7||1o 
5 节点 1 
| 6 2、5、8 2115118 

人 

[7] 节点 2 

8 
[ol 3. 6. 9 3 6/9 
|10| 节点 3 


图 14-9 按 数据 量 分 布 的 示意 图 


(4) 一 致 性 哈 希 。 使 用 一 个 哈 希 函数 计算 数据 或 数据 特征 的 哈 希 值 ， 令 该 哈 希 函 
数 的 输出 值 域 为 一 个 封闭 的 环 ， 即 哈 希 函 数 输出 的 最 大 值 是 最 小 值 的 前 序 。 将 节点 
随机 分 布 到 这 个 环 上 ， 每 个 节点 负责 处 理 从 自己 开始 顺 时 针 至 下 一 个 节点 的 全 部 哈 
希 值 域 上 的 数据 。 图 14-10 一 致 性 哈 希 分 布 示意 图 是 一 个 简单 的 示例 。 


节点 3 节点 1 
负责 0、1、2 负责 3、4、5、6 


(LQ 
ae, 


图 14-10 “一致 性 哈 希 分 布 示意 图 


14.2.2 ”数据 副本 控制 协议 

副本 控制 协议 指 按 一 定 的 协议 流程 控制 副本 数据 的 读 写 行为 ， 使 得 副本 满足 一 
定 的 可 用 性 和 一 致 性 要 求 的 分 布 式 协议 。 副 本 控制 协议 要 具有 一 定 的 容错 能 力 ， 从 
而 保证 系统 具有 一 定 的 可 用 性 。 在 分 布 式 系统 中 通常 有 两 种 方法 。 
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1. 中 心 化 副本 控制 协议 

中 心 化 副本 控制 协议 的 基本 思路 是 : 由 一 个 主 节点 协调 副本 数据 的 更 新 ， 并 维 
护 副 本 之 间 的 一 致 性 。 中 心 化 副本 控制 协议 的 优点 是 协议 相对 较为 简单 ， 所 有 副本 
相关 的 控制 和 并 发 控制 由 主 节点 完成 ， 从 而 使 得 一 个 分 布 式 并 发 控制 问题 ， 简 化 为 
一 个 单机 并 发 控制 问题 。 中 心 化 副本 控制 协议 通用 架构 如 图 14-11 所 示 。 这 类 协议 的 
优点 是 设计 简单 ， 但 是 存在 主 节点 ， 使 得 其 可 能 由 于 主 节 点 异常 而 造成 不 可 用 。 


主 节点 

2 ro 控制 
副 节点 副 节点 副 节点 
图 14-11 中心 化 副本 控制 协议 示意 图 

最 常用 的 中 心 化 副本 控制 协议 就 是 Primary-Secondary 协 议 。 类 似 通常 的 Master- 
Slave 系 统 ，Primary 是 主 节 点 ，Secondary 是 若干 副 节 点 。 在 这 种 协议 中 ， 副 本 被 分 为 
两 种 :Primary 的 副本 ， 通 常 只 有 一 个 ; 除 Primary 以 外 的 副本 都 作为 Secondary 副 本 。 
维护 Primary 副 本 的 节点 作为 中 心 节点 ， 中 心 节点 负责 维护 数据 的 更 新 、 并 发 控制 、 
协调 副本 的 一 致 性 等 控制 管理 工作 。 

2. 去 中 心 化 副本 控制 协议 

去 中 心 化 副本 控制 协议 没有 中 心 节点 ， 协 议 中 所 有 的 节点 都 是 完全 对 等 的 
节点 之 间 通 过 平等 协商 达成 一 致 。 从 而 去 中 心 化 协议 没有 因为 中 心 化 节点 异常 而 带 
来 的 停止 服务 等 问题 。 去 中 心 化 协议 的 最 大 缺点 是 协议 过 程 通常 比较 复杂 。 不 再 就 
去 中 心 化 副本 控制 协议 做 进一步 详细 分 析 。 去 中 心 化 副本 控制 协议 通用 架构 ， 如 图 
14-12 所 示 的 去 中 心 化 副本 控制 协议 示意 图 。 这 类 协议 的 优点 是 个 别 节点 异常 不 影响 
整个 系统 ， 缺 点 是 协议 流程 复杂 ， 实 现 和 处 理 效率 均 降 低 。 

A 节点 
协商 协商 
Vite 
A412 ”去 中 心 化 副本 控制 协议 示意 图 

Paxos 是 唯一 在 工程 中 得 到 应 用 的 强 一 致 性 去 中 心 化 副本 控制 协议 。Paxos 协 议 
算法 是 Lamport 于 1990 年 提出 的 一 种 基于 消息 传递 的 一 致 性 算法 。 由 于 算法 难以 理 
解 ， 起 初 并 没有 引起 人 们 的 重视 。2006 年 Google 的 三 篇 论文 中 的 chubby 锁 服务 使 用 
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paxos 作 为 chubby cell 中 的 一 致 性 算法 ，Paxos 的 人 气 从 此 一 路 狂 册 。Paxos 协 议 是 少数 
在 工程 实践 中 证 实 的 强 一 致 性 、 高 可 用 的 去 中 心 化 分 布 式 协议 。 
Paxos 协 议 算法 解决 的 问题 是 一 个 分 布 式 系统 如 何 就 某 个 值 (决议 ) 达 成 一 致 。 一 
个 典型 的 场景 是 ， 在 一 个 分 布 式 数据 库 系 统 中 ， 如 果 各 节点 的 初始 状态 一 致 ， 每 个 
节点 都 执行 相同 的 操作 序列 ， 那 么 他 们 最 后 能 得 到 一 个 一 致 的 状态 。 为 保证 每 个 节 
点 执行 相同 的 命令 序列 ， 需 要 在 每 一 条 指令 上 执行 一 个 “一 致 性 算法 ”， 以 保证 每 
个 节点 看 到 的 指令 一 致 ， 这 是 分 布 式 计算 中 的 重要 问题 。 
基于 Paxos 协 议 中 ， 有 一 组 完全 对 等 的 参与 节点 ( 称 为 accpetor)， 这 组 节点 各 自 就 
某 一 事件 做 出 决议 ， 如 果 某 个 决议 获得 了 超过 半数 节点 的 同意 则 生效 。Paxos 协 议 
中 只 要 有 超过 一 半 的 节点 正常 ， 就 可 以 工作 ， 能 很 好 对 抗 宕 机 、 网 络 分 化 等 异常 
情况 。 


14.3 分布 式 系统 和 大 数据 


面 对 越 来 越 多 的 数据 ， 采 用 什么 技术 方案 来 处 理 这 些 数据 始终 是 一 个 关键 问 
题 。 过 去 分 布 式 计算 理论 比较 复杂 ， 技 术 实 现 比较 困难 ， 因 此 在 处 理 大 数据 方面 ， 
集中 式 计算 一 直 是 主流 解决 方案 。IBM 的 大 型 机 就 是 集中 式 计算 的 典型 硬件 ， 很 多 
银行 和 政府 机 构 都 用 它 处 理 大 数据 。 随 着 需求 变化 和 技术 发 展 ， 数 据 处 理 逐 渐 从 传 
统 的 集中 式 计算 向 分 布 式 计算 演进 。 互 联网 公司 把 研究 方向 聚焦 在 可 以 使 用 廉价 计 
算 机 的 分 布 式 计算 上 ， 并 取得 巨大 成 功 。 当 前 分 布 式 计算 越 来 越 成 为 大 数据 处 理 的 
主流 。 


1. 成 本 压力 使 得 对 分 布 式 计算 的 需求 越 来 越 多 


不 是 所 有 的 问题 都 需要 分 布 式 计算 来 解决 ， 对 传统 银行 来 说 ， 由 于 对 成 本 不 是 
很 敏感 ， 所 以 都 是 购买 高 端的 大 型 计算 机 做 数据 分 析 处 理 。 但 是 对 一 般 企业 来 说 ， 
对 成 本 非常 关注 ， 所 以 购买 的 硬件 只 能 够 满足 收集 一 些 重要 的 且 性 能 不 是 很 高 的 数 
据 。 而 对 于 所 有 的 数据 分 析 师 来 说 ， 则 希望 所 有 的 数据 都 被 收集 和 存储 ， 从 而 可 以 
随时 在 其 中 找到 需要 的 数据 ， 这 就 需要 更 多 的 计算 和 存储 资源 。 为 了 满足 这 些 需 
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求 ， 企 业 需 要 相对 低 成 本 的 解决 方案 ， 基 于 通用 IT 软 硬 件 的 分 布 式 系统 正好 可 以 作 
为 低 成 本 方案 ， 从 而 得 到 发 展 。 


2. 硬件 和 软件 的 技术 突破 改变 数据 管理 行业 


技术 革新 提升 了 数据 处 理 能 力 ， 降 低 了 硬件 的 价格 。 同 时 ， 新 的 分 布 式 软件 技 
术 基 于 通用 IT 硬件 构建 大 规模 的 分 布 式 系统 ， 并 且 能 通过 自动 化 管理 技术 充分 利用 
硬件 的 能 力 。 例 如 一 个 大 的 分 布 式 集群 的 负载 均衡 和 优化 技术 ， 所 有 的 节点 被 当 作 一 
个 计算 /存储 /网 络 资源 池 ， 在 出 现 节点 故障 时 ， 计 算 和 存储 可 以 在 不 同 节点 间 迁 移 。 


3. 分 布 式 计算 是 大 数据 的 技术 基础 ， 大 数据 是 分 布 式 计算 的 最 佳 
实践 


分 布 式 的 下 面 这 些 特 点 ， 能 够 保证 大 数据 系统 的 稳定 可 靠 运行 : 

> 容错 性 ， 对 于 最 终 用 户 来 说 ， 即 使 部 分 组 件 发 生 故 障 ， 也 不 影响 其 业务 操作 ; 

> 高 可 用 性 ， 业 务 能 够 保持 99.999% 的 可 用 性 ; 

> 可 恢复 性 ， 组 件 发 生 故障 后 ， 能 够 自动 恢复 并 重新 加 入 系统 ; 

> 一 致 性 ， 各 个 组 件 /节点 在 并 发 和 失败 时 能 保持 数据 一 致 性 ; 

> 可 扩展 性 ， 增 加 某 些 节点 ， 系 统 依然 运行 正确 。 

大 数据 作为 分 布 式 系统 的 最 佳 实践 ， 其 核心 是 利用 多 台 计 算 机 组 成 的 分 布 式 系 
统 来 协同 解决 单 台 计算 机 所 不 能 解决 的 大 数据 的 计算 、 存 储 等 问题 。 大 数据 和 传统 
数据 分 析 的 最 大 区 别 就 在 于 问题 的 规模 ， 即 计算 、 存 储 的 数据 量 的 区 别 。 大 数据 将 
传统 的 单机 数据 分 析 问 题 使 用 分 布 式 来 解决 ， 首 先 要 解决 的 也 是 如 何 将 问题 拆 解 为 
可 以 使 用 多 机 分 布 式 解决 ， 使 得 分 布 式 系统 中 的 每 台 机 器 负责 原 问题 的 一 个 子 集 。 
由 于 无 论 是 计算 还 是 存储 ， 其 问题 输入 对 象 都 是 数据 ， 所 以 如 何 拆 解数 据 依然 是 大 
数据 系统 的 基本 问题 。 

大 数据 系统 采用 的 数据 处 理 方式 如 表 14-1 所 示 。 


表 14-1 大 数据 系统 的 数据 处 理 方式 
大 数据 系统 数据 分 布 方式 副本 控制 策略 
Big Table& HBase 按 数据 范围 分 布 ZooKeeper 
GFS& HDFS 按 数据 量 分 布 ZooKeeper 
中 心 化 与 去 中 心 化 相 结合 


ZooKeeper 
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对 于 开源 大 数据 系统 Hadoop 的 各 个 组 件 来 说 ， 其 普遍 采用 中 心 化 副本 控制 协 
议 来 简化 系统 的 设计 和 实现 ， 但 是 为 了 保证 系统 的 可 靠 性 ， 又 在 其 分 布 式 协调 系统 
ZooKeeper 中 采用 类 似 Paxos 的 去 中 心 化 协议 选 出 Primary 节 点 。 在 完成 Primary 节 点 的 
选举 后 ， 系 统 就 转 为 中 心 化 的 副本 控制 协议 ， 即 由 Primary 节 点 负责 同步 更 新 操作 到 
Secondary。 这 样 就 保证 了 Primary 节 点 的 可 靠 性 。 

综合 起 来 ， 我 们 可 以 看 到 ， 无 论 是 分 布 式 系统 还 是 大 数据 系统 ， 其 本 质 都 是 如 
何 对 数据 做 合理 和 高 效 的 处 理 。 本 章 介 绍 了 作为 大 数据 基础 的 分 布 式 系统 对 数据 的 
基本 处 理 方法 ， 包 括 数据 的 分 布 方式 和 对 数据 副本 进行 控制 的 协议 和 算法 。 这 些 算 
法 也 是 前 面 介绍 的 大 数据 各 类 组 件 的 技术 基础 。 所 有 的 大 数据 系统 都 是 以 分 布 式 系 
统 作为 其 技术 基础 ， 并 随 着 分 布 式 技术 的 成 熟 而 发 展 起 来 的 。 
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互联 网 技术 的 繁荣 改变 了 人 们 的 思维 模式 ， 在 技术 应 用 领域 开始 了 以 算法 为 中 
心 向 以 数据 为 中 心 的 变革 ， 算 法 成 为 数据 的 表现 形式 。 洞 察 数 据 、 让 数据 说 话 是 这 
一 时 代 的 代名词 。Google 发 表 的 三 篇 论文 展示 了 处 理 海量 数据 的 技术 手段 ， 使 得 数 
据 表 达 的 意义 从 宏观 转向 微观 ， 以 大 数据 为 代表 的 生态 图 逐 渐 构 成 一 个 技术 闭环 。 

传统 主流 数据 库 系 统 ， 以 商用 数据 DB2、Oracle、SQLServer、Sybase， 开 源 数 
据 库 PostgreSQL、MySql 为 代表 ， 具 有 强大 SQL 域 关系 演算 、 实 现 关系 代数 操作 的 能 
力 ， 其 传统 数据 管理 能 力 及 技术 架构 在 很 长 的 历史 时 期 中 占 统治 地 位 ， 面 对 不 断 增 
长 的 数据 量 和 多 样 化 的 数据 类 型 ， 拥 抱 变 化 、 不 断 创新 、 迎 接 挑战 是 其 必然 之 路 。 


15.1 数据 库 系 统 的 历史 


对 于 传统 IT 软件 的 三 架 马 车 (操作 系统 、 办 公 、 数 据 库 ) 之 一 的 数据 库 ，Oracle 
总 裁 埃 里 森 曾 开 过 这 样 的 玩笑 : “我 们 的 数据 库 可 以 装 各 种 数据 ， 我 希望 有 一 天 把 
Window 操 作 系统 装 进 Oracle 中 。” 当 然 这 个 玩笑 并 未 成 为 现实 ， 并 被 人 认为 是 野 
心 ，SUN 公 司 被 Oracle 收 购 ， 另 外 一 个 操作 系统 Solaris 被 “ 装 进 ” 了 Oracle， 其 数据 
库 的 行业 地 位 不 容 质疑 。 


15.1.1 关系 数据 库 的 发 展 


20 世 纪 60 年 代 末 ，70 年 代 初 出 现 的 三 个 事件 标志 数据 库 技术 日 益 成 熟 ， 并 有 了 
坚实 的 理论 基础 。 
1969 年 [BM 公司 研制 开发 基于 层次 结构 数据 模型 的 数据 库 管 理 系统 IMS(Information 


Mangement System). 


DBTG(Data Base Task Group) 于 20 世 纪 60 年 代 末 70 年 代 初 在 对 数据 库 系统 研究 讨 
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论 的 基础 上 提出 基于 网 状 模型 的 数据 库 系统 报告 ， 这 些 报告 确定 并 建立 了 数据 库 系 
统 的 许多 概念 、 方 法 和 技术 。 

1970 年 [BM 公司 San Jose 研 究 实验 室 的 E. F. Codd 发 表 了 《大 型 共享 数据 库 数据 的 
关系 模型 》 论 文 ， 提 出 了 数据 库 的 关系 模型 ， 开 创 了 数据 库 关 系 方法 和 关系 数据 理 
论 的 研究 ， 为 数据 库 技术 黄 定 了 理论 基础 。E. F. Codd 因 杰出 的 工作 于 1981 年 获得 了 
ACM 图 灵 奖 。 

数据 库 技术 迎 来 了 发 展期 ， 数 据 库 方法 ， 特 别 是 DBTG 方 法 和 思想 应 用 于 各 种 计 
算 机 系统 ， 出 现 了 许多 商品 化 数据 库 系统 ， 大 多 是 基于 网 状 和 层次 模型 的 。 

关系 方法 的 理论 研究 和 软件 研制 取得 了 很 大 成 果 ，IBM 公 司 San Jose 研 究 实验 室 
在 IBM370 系 列 机 上 研制 关系 数据 库 系统 System R 获 得 成 功 ，1981 年 IBM 又 发 布 了 具 
有 System R 全 部 特征 的 SQL/DS。 与 此 同时 ， 加 州 伯克利 分 校 也 研制 INGRES 关 系数 
据 库 实验 系统 ， 并 发 布 了 商用 INGRES 系 统 。 

历史 就 是 这 样 的 有 意思 ，1977 年 Oracle 创 立 ，Ellison 这 个 市 场 的 宠儿 后 面 的 故事 
大 家 都 知道 了 ，IBM“ 上 百 亿美 元 的 错误 ”成 就 了 Oracle， 刚 开始 的 市 场 竞 争 是 在 
Oracle 和 INGRES 之 间 ， 直 到 1985 年 [BM 才 发 布 了 关系 数据 库 DB2， 采 用 了 和 Ingres 
不 同 的 数据 查询 语言 SQL，Ingres 用 的 是 QUEL。SQL 在 1986 年 成 为 了 正式 工业 标 
准 ，IBM 确 立 SQL 的 标准 是 Oracle 成 功 的 关键 ,但 数据 库 的 战争 远 未 结束 。Sybase 和 
Informix 也 加 入 了 竞争 的 行列 。 


15.1.2 SQL 成 为 关系 数据 库 的 代名词 


通常 人 们 一 谈 起 数据 库 时 ， 理 所 当然 地 认为 讨论 的 是 基于 SQL 的 数据 库 ， 这 充 
分 说 明 SQL 对 关系 型 数据 库 的 巨大 意义 。 

SQL 语言 是 1974 年 由 Boyce 和 Chamberlin 提 出 ， 并 在 IBM 公 司 San Jose Research 
Laboratory 研 制 的 SystemR 上 实现 的 。20 世 纪 70 年 代 初 ，IBM 公 司 SanJose 研 究 实验 室 
的 E. F. Codd 发 表 将 数据 组 成 表格 的 应 用 原则 (Codd'sRelational Algebra)。1974 年 ， 同 
一 实验 室 的 D. D. Chamberlin 和 R. F. Boyce 在 Codd'sRelational Algebra 基 础 上 ， 研 制 出 
一 套 规范 语言 一 一 SEQUEL(Structured English Query Language)， 并 在 1976 年 11 月 的 
IBM Journal ofR&D 上 公布 新 版 本 的 SQL( 即 SEQUEL/2)，1980 年 改名 为 SQL 。 

1979 年 Oracle 公 司 首先 提供 商用 的 SQL，IBM 公 司 在 DB2 和 SQL/DS 数 据 库 系 统 中 
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也 实现 了 SQL。 

1986 年 10 月 ， 美 国 ANSI 采 用 SQL 作 为 关系 数据 库 管理 系统 的 标准 语言 
(ANSIX3.135-1986)， 后 为 国际 标准 化 组 织 (ISO) 采 纳 为 国际 标准 。 

1989 年 ， 美 国 ANSI 采 纳 在 ANSIX3.135-1989 报 告 中 定义 的 关系 数据 库 管 理 系 统 
的 SQL 标准 语言 ， 称 为 ANSISQL89， 该 标准 替代 ANSIX3.135-1986 版 本 。 该 标准 为 下 
列 组 织 所 采纳 : 

> 被 国际 标准 化 组 织 (ISO) 采 纳 ， 发 布 在 ISO9075-1989 “Database Language SQL 

With Integrity Enhancement” ; 
> 被 美国 联邦 政府 采纳 ， 发 布 在 “The Federal Information Processing Standard 
Publication(FIPSPUB)127”。 

目前 (21 世 纪 初 期 )， 主 要 的 关系 数据 库 管理 系统 支持 某 些 形 式 的 SQL， 大 部 分 数 
据 库 将 遵守 ANSISQL89 标 准 。 

ISO 于 1992 年 11 月 又 公布 了 SQL92 标 准 ， 在 此 标准 中 ， 把 数据 库 分 为 三 个 级 别 ， 
基本 集 、 标 准 集 和 完全 集 。 

各 种 不 同 的 数据 库 对 SQL 语言 的 支持 与 标准 存在 着 细微 的 不 同 ， 这 是 因为 ， 有 
些 产 品 的 开发 先 于 标准 的 公布 ， 另 外 ， 各 产品 开发 商 为 了 达到 特殊 的 性 能 或 新 的 
特性 ， 需 要 对 标准 进行 扩展 。 已 有 100 多 种 遍布 在 从 微机 到 大 型 机 上 的 数据 库 产品 
SQL， 其 中 包括 DB2、SQL/DS、ORACLE、INGRES、SYBASE、SQLSERVER、 
DBASEIV、PARADOX、MICROSOFTACCESS 等 。 

SQL 语言 基本 上 独立 于 数据 库 本 身 、 使 用 的 机 器 、 网 络 、 操 作 系统 ， 基 于 SQL 
的 DBMS 产 品 可 以 运行 在 从 个 人 机 、 工 作 站 到 基于 局 域 网 、 小 型 机 和 大 型 机 的 各 种 
计算 机 系统 上 ， 具 有 良好 的 可 移植 性 。 可 以 看 出 标准 化 的 工作 是 很 有 意义 的 。 早 在 
1987 年 就 有 一 些 有 识 之 士 预测 SQL 的 标准 化 是 “一 场 革命 ”， 是 “关系 数据 库 管 理 
系统 的 转折 点 ”。 数 据 库 和 各 种 产品 都 使 用 SQL 作为 共同 的 数据 存 取 语言 和 标准 的 
接口 ， 使 不 同 数据 库 系统 之 间 的 互 操作 有 了 共同 的 基础 ， 进 而 实现 异 构 机 、 各 种 操 
作 环 境 的 共享 与 移植 。 


15.1.3” MPP 异军突起 


传统 RDBMS 的 核心 设计 思想 基本 上 是 30 年 前 形成 的 ， 互 联网 时 代 的 数据 量 之 
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大 已 经 在 不 断 挑战 人 的 心理 预期 ， 随 着 数据 量 的 增长 ， 对 分 析 需 求 的 日 益 增长 ， 成 
为 数据 处 理 技术 面临 的 新 的 挑战 。 数 据 处 理 领 域 还 是 传统 关系 型 数据 库 (RDBMS) 
的 天 下 。 过 去 30 年 脱颖而出 的 无 疑 是 Oracle 公 司 。 全 世界 数据 库 市 场 基本 上 被 
Oracle, IBM/DB2, Microsoft/SQL Server、SAP 等 芍 断 。 开 源 数 据 库 主要 是 MySQL 和 
PostgreSQL。 这 些 数据 库 当 年 主要 是 面向 OLTP 交 易 型 需求 设计 、 开 发 的 ， 以 开发 人 
机 会 话 应 用 为 主 。 这 些 传 统 数据 库 底层 的 物理 存储 格式 都 是 行 存储 ， 比 较 适 合 数据 
频繁 的 增删 改 操 作 ， 但 对 于 统计 分 析 类 的 查询 ， 行 存储 效率 很 低 ， 在 传统 数据 库 架 
构 下 ，MPP 架 构 是 首先 能 考虑 到 的 架构 设计 。 

MPP 即 大 规模 并 行 处 理 系统 ， 系 统 由 许多 松 耦 合 处 理 单元 组 成 。 其 中 ， 每 个 单 
元 内 的 CPU 都 有 自己 私有 的 资源 ， 如 总 线 、 内 存 、 硬 盘 等 。 在 每 个 单元 内 都 有 操作 
系统 和 管理 数据 库 的 实例 副本 。 


1. MPP 架 构 的 优势 


(1) 数据 存储 

MPP 分 析 型 数据 库 采 用 列 相关 存储 架构 进行 数据 存储 ， 主 要 适合 于 批量 数据 处 
理 和 即席 查询 。 

面 对 海 量 数 据 分 析 的 IO 瓶颈 ， 把 表 数 据 按 列 的 方式 存储 ， 其 优势 体现 在 以 下 几 
个 方面 。 

(2) 不 读 取 无 效 数据 

其 降低 IO 开销 ， 同 时 提高 每 次 IO 的 效率 ， 从 而 大 大 提高 查询 性 能 。 查 询 语句 只 
从 磁盘 上 读 取 所 需要 的 列 ， 其 他 列 的 数据 是 不 需要 读 取 的 。 磁 盘 10 是 行 存储 的 1/10 
或 更 少 ， 查 询 响应 时 间 提 高 10 倍 以 上 。 行 列 访问 示意 图 如 图 15-1 所 示 。 


Column 

Store 

Reads 3 columns 

Row Store = se Sf 117108 - 
Reads all columns yi wae . 117008 


2h ae IO 


图 15-1 行列 访问 示意 图 
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(3) 高 压缩 比 

压缩 比 可 以 达到 5 一 20 倍 以 上 ， 数 据 占有 空间 降低 到 传统 数据 库 的 1110， 节 省 了 
存储 设备 的 开销 。 列 数据 压缩 存储 示意 如 图 15-2 所 示 。 


Txn Date CustomerID Trade 


W17/2007, 16 


Run-length Delta Float 
Encoding Encoding Compression 
(Few values, (Many values, (Many values, 
sorted) sorted) unsorted) 


图 15-2” 列 压缩 示意 图 


当 数 据 库 的 大 小 与 数据 库 服务 器 内 存 大 小 之 比 达 到 或 超过 2:1( 典 型 的 大 型 系统 配 
置 值 ) 时 ， 列 存 的 MO 优势 就 显得 更 加 明显 。 

由 于 采用 列 存储 技术 ， 其 还 可 以 实现 高 效 的 透明 压缩 。 由 于 数据 按 列 包 存储 ， 
每 个 数据 包 内 都 是 同 构 数 据 ， 内 容 相关 性 很 高 ， 更 易于 实现 压缩 ， 压 缩 比 通常 能 
够 达到 1:10， 甚 至 更 优 。 这 使 得 其 能 够 同时 在 磁盘 I/O 和 Cachel/O 上 提升 数据 库 的 
性 能 。 

(4) 高 并 发 

随 着 商业 智能 在 企业 内 的 快速 发 展 ，BI 用 户 对 信息 分 析 平 台 的 访问 频率 和 查询 
复杂 度 也 快速 提升 ， 因 此 要 求 相 应 的 数据 库 系统 对 高 并 发 查询 进行 支持 。MPP 利 用 
强大 并 行 处 理 能 力 提 供 并 发 支持 。 

(5) 线性 扩展 

在 MPP 架 构 中 增加 节点 就 可 以 线性 提高 系统 的 存储 容量 和 处 理 能 力 。 其 在 扩展 
节点 时 操作 简单 ， 在 很 短 时 间 内 就 能 完成 数据 的 重新 分 布 。 线 性 扩展 示意 如 图 15-3 
所 示 。 
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图 15-3 ”线性 扩展 示意 图 
线性 扩展 支持 为 数据 分 析 系 统 将 来 的 拓展 给 予 技术 上 的 保障 ， 用 户 可 根据 实施 
需要 进行 容量 和 性 能 的 扩展 。 
(6) 高 可 用 性 
MPP 是 高 可 用 的 系统 ， 在 集群 MPP 环 境 中 除了 硬件 级 的 Raid 技 术 外 ， 有 的 提供 
数据 库 层 Mirror 机 制 保 护 ， 即 每 个 节点 数据 在 另外 的 节点 中 同步 镜像 ， 单 个 节点 的 错 
误 不 影响 整个 系统 的 使 用 。 数 据 在 不 同 节 点 的 高 可 用 镜像 ， 如 图 15-4 所 示 。 


回回 
图 15-4 数据 镜像 示意 图 


对 于 主 节点 ，MPP 可 提供 Master/Standby 机 制 进行 主 节点 容错 ， 当 主 节点 发 生 错 
误 时 ， 可 以 切换 到 Standby 节 点 继续 服务 。 


2. MPP 架 构 的 局 限 


> 列 存储 模式 的 使 用 有 限制 ， 不 支持 delete/update 操 作 。 

> 用 户 不 可 灵活 控制 事务 的 提交 ， 用 户 提交 的 处 理 将 被 自动 视 作 整体 事务 ， 整 
体 提 交 ， 整 体 回 滚 。 

> 数据 库 需 要 额外 的 空间 清理 维护 (vacuum)， 给 数据 库 维护 带 来 额外 的 工作 量 。 

> 用 户 不 能 灵活 分 配 或 控制 服务 器 资源 。 

> 对 磁盘 IO 有 比较 高 的 要 求 。 
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> 备份 机 制 还 不 完善 ， 没 有 增 量 备份 。 


3. 主流 数据 仓库 MPP 实 现 
Microsoft 2008 年 就 收购 了 DATAllegro 公 司 ，DATAllegro 公 司 成 立 于 2003 年 ， 
以 一 款 基于 Ingres 数 据 库 的 大 规模 并 行 处 理 (MMP) 数 据 仓库 软件 立足 于 市 场 。 


DAIAllegro 完 全 采用 非 专利 的 标准 数据 库 引擎 。 

SAP SybaseIQ 本 身 是 共享 磁盘 ， 它 跟 RAC 的 区 别 是 它 不 共享 节点 的 计算 资源 。 

Vertica、Greenplum、AsterData 支 持 MPP 技 术 ， 每 个 节点 完全 独立 运作 ， 完 全 无 
共享 架构 ， 降 低 对 共享 资源 的 系统 竞争 。 不 共享 磁盘 ， 数 据 移动 和 重 分 布 完全 是 靠 
计算 机 集群 完成 的 。 

Teradata, IBM Netezza 都 是 Shared Nothing 架 构 体 系 架 构 的 一 体 机 结构 ， 为 追求 
系统 性 能 ， 系 统 硬件 都 做 了 专门 的 设计 。 

下 面 以 Greenplum 为 例 介绍 MPP 的 架构 

(1) 基础 架构 

Greenplum 作 为 分 布 式 数据 库 产品 ， 在 处 理 海量 数据 方面 相 比 传统 数据 库 有 着 较 


大 的 优势 。 
Greenplum 整 体 架 构 如 图 15-5 所 示 。 


节点 a 
生成 查询 计划 并 派发 < 
汇总 执行 结果 Se 


WV 
Master > > 


EIEN 
om ~ |“) |“a)| “a)|“0)|“e] | “o)| “|| “3]| “| 0) 


总 


外 部 数据 源 
并 行 装载 或 导出 PP 


15-5 ”Greenplum 架 构图 


— 243 一 


第 15 章 
数据 库 系统 与 大 数据 的 关系 
数据 库 由 Master Severs 和 Segment Severs 通 过 Interconnect 互 联 组 成 。 
Master 主 机 负责 : 建立 与 客户 端的 连接 和 管理 ，SQL 解 析 并 形成 执行 计划 ; 执行 计 
划 向 Segment 分 发 收集 Segment 的 执行 结果 ; Master 不 存储 业务 数据 ， 只 存储 数据 字典 。 
Segment 主 机 负责 : 业务 数据 的 存储 和 存 取 ;用户 查询 SQL 的 执行 。 
(2) 主要 特性 
Greenplum 整 体 有 如 下 技术 特点 。 
> Shared-nothing 架 构 
海量 数据 库 采 用 最 易于 扩展 的 Shared-nothing 架 构 ， 每 个 节点 都 有 自己 的 操作 系 
统 、 数 据 库 、 硬 件 资源 ， 节 点 之 间 通 过 网 络 来 通信 。 
> 基于 gNet Software Interconnect 
数据 库 的 内 部 通信 通过 基于 超级 计算 的 “软件 Switch” 内 部 连接 层 ， 基 于 通用 的 
gNet(GigE, 10GigE) NICs/switches 在 节点 间 传 递 消 息 和 数据 ， 采 用 高 扩展 协议 ， 支 
持 扩展 到 1000 个 以 上 节点 。 
> 并 行 加 载 技术 
利用 并 行 数据 流 引擎 ， 数 据 加 载 完 全 并 行 ， 加 载 数 据 可 达到 4.5T/ 小 时 (理想 配 
Hi), 并 且 可 以 直接 通过 SQL 语 句 对 外 部 表 进行 操作 。 
> 支持 行 、 列 压缩 存储 技术 
海量 数据 库 支 持 ZLIB 和 QUICKLZ 方 式 的 压缩 ， 压 缩 比 可 到 10:1。 压 缩 数 据 不 一 
定 会 带 来 性 能 的 下 降 ， 压 缩 表 通过 利用 空闲 的 CPU 资源 ， 而 减少 IO 资源 占用 。 
海量 数据 库 除 支持 主流 的 行 存储 模式 外 ， 还 支持 列 存储 模式 。 如 果 常 用 的 查询 
只 取 表 中 少量 字段 ， 则 列 模式 效率 更 高 ， 如 查询 需要 取 表 中 的 大 量 字 段 ， 行 模式 效 
率 更 高 。 
海量 数据 库 的 多 种 压缩 存储 技术 在 提高 数据 存储 能 力 的 同时 ， 也 可 根据 不 同 应 
用 需求 提高 查询 的 效率 。 


15.1.4 革命 性 的 NoSQL 


NoSQL 一 词 首先 是 CarloStrozzi 在 1998 年 提出 来 的 ， 指 的 是 他 开发 的 一 个 没有 
SQL 功能 的 、 轻 量 级 的 、 开 源 的 关系 型 数据 库 。 这 个 定义 跟 我 们 现在 对 NoSQL 的 定 
义 有 很 大 的 区 别 ， 它 确 确 实 实 字 如 其 名 ， 指 的 就 是 “没有 SQL ”的 数据 库 。 不 过 ， 
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NoSQL 的 发 展 慢 慢 偏离 了 初衷 ，CarloStrozzi 也 发 觉 ， 其 实 我 们 要 的 不 是 “nosql”， 
而 应 该 是 “norelational”， 也 就 是 我 们 现在 常 说 的 非 关 系 型 数据 库 。 

2009 年 初 ，Johan Oskarsson 举 办 了 一 场 关于 开源 分 布 式 数据 库 的 讨论 ，Eric 
Evans 在 这 次 讨论 中 再 次 提出 了 NoSQL 一 词 ， 用 于 指 代 那些 非 关 系 型 的 、 分 布 式 的 ， 
且 一 般 不 保证 遵循 ACID 原则 的 数据 储存 系统 的 出 现 和 兴起 。Eric Evans 使 用 NoSQL 
这 个 词 ， 并 不 是 因为 字面 上 的 “没有 SQL” 的 意思 ， 他 只 是 觉得 很 多 经 典 的 关系 型 
数据 库 名 字 都 叫 “**SQL”( 例 如 MySQL、MSSQL、PostgreSQL)， 所 以 为 了 表示 跟 
这 些 关系 型 数据 库 在 定位 上 的 截然 不 同 ， 就 用 了 “NoSQL ”一 词 。 

NoSQL(NoSQL=NotOnlySQL)， 意 即 “ 不 仅仅 是 SQL”， 是 一 项 全 新 的 数据 库 革 
命 性 运动 。NoSQL 的 拥护 者 们 提倡 运用 非 关系 型 的 数据 存储 ， 相 对 于 铺天盖地 的 关 
系 型 数据 库 运用 ， 这 一 概念 无 疑 是 一 种 全 新 的 思维 注入 。 

对 于 NoSQL， 并 没有 一 个 明确 的 范围 和 定义 ， 但 是 他 们 都 普遍 存在 下 面 一 些 共 
同 特征 。 

> 不 需要 预定 义 模 式 : 不 需要 事先 定义 数据 模式 ， 预 定义 表 结构 。 数 据 中 的 每 条 

记录 都 可 能 有 不 同 的 属性 和 格式 。 当 插入 数据 时 ， 并 不 需要 预先 定义 它们 的 
模式 。 

> 无 共享 架构 : 相对 于 将 所 有 数据 存储 的 存储 区 域 网 络 中 的 全 共享 架构 ， 

NoSQL 往 往 将 数据 划分 后 存储 在 各 个 本 地 服务 器 上 。 因 为 从 本 地 磁盘 读 取 数 
据 的 性 能 往往 好 于 通过 网 络 传输 读 取 数 据 的 性 能 ， 从 而 提高 了 系统 的 性 能 。 
> 弹性 可 扩展 : 可 以 在 系统 运行 的 时 候 ， 动 态 增加 或 者 删除 结 点 。 不 需要 停机 

维护 ， 数 据 可 以 自动 迁移 。 
> 分 区 : 相对 于 将 数据 存放 于 同一 个 节点 ，NoSQL 数 据 库 需要 将 数据 进行 分 
区 ， 将 记录 分 散在 多 个 节点 上 面 ， 通 常 分 区 的 同时 还 要 做 复制 。 这 样 既 提高 
了 并 行 性 能 ， 又 能 保证 没有 单 点 失效 的 问题 。 

> 异步 复制 : 和 RAID 存 储 系统 不 同 的 是 ，NoSQL 中 的 复制 往往 是 基于 日 志 的 
异步 复制 。 这 样 ， 数 据 就 可 以 尽快 地 写 入 一 个 节点 ， 而 不 会 被 网 络 传输 引起 
迟延 。 缺 点 是 并 不 总 是 能 保证 一 致 性 ， 这 样 的 方式 在 出 现 故 障 的 时 候 ， 可 能 
会 丢失 少量 的 数据 。 

> BASE: 相对 于 事务 严格 的 ACID 特性 ，NoSQL 数 据 库 保 证 的 是 BASE 特 性 。 
BASE 所 保证 的 是 数据 最 终 一 致 性 ， 以 及 软 事务 。 
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NoSQL 数 据 库 并 没有 一 个 统一 的 架构 ， 两 种 NoSQL 数 据 库 之 间 的 不 同 ， 甚 至 远 
远 超 过 两 种 关系 型 数据 库 的 不 同 。 可 以 说 ，NoSQL 各 有 所 长 ， 成 功 的 NoSQL 必 然 特 
别 适 用 于 某 些 场合 或 者 某 些 应 用 ， 在 这 些 场 合 中 会 远 远 胜 过 关系 型 数据 库 和 其 他 的 
NoSQL。 
在 NoSQL 潮流 中 ， 最 重要 的 莫 过 于 Apache 基 金 会 的 HBase。 它 是 一 个 领导 者 ， 
是 一 个 典型 的 分 布 式 文件 系统 ， 是 一 个 开源 系统 。 用 户 可 以 在 不 了 解 分 布 式 底层 细 
节 的 情况 下 ， 借 助 Hadoop 开 发 分 布 式 程序 。 其 取得 了 成 功 ， 成 为 分 布 式 数据 处 理 界 
的 巨 兽 。 
第 二 位 领导 者 ，MongoDB， 是 一 个 成 功 的 文档 处 理 型 数据 库 系 统 ， 它 被 称 为 
“ 非 关系 式 数据 库 中 最 像 关 系 式 数据 库 的 产品 ”。MongoDB 查 询 功 能 强大 ， 特 别 适 
合 高 性 能 的 Web 数 据 处 理 。 
Cassandra 是 这 个 领域 中 的 另类 产品 ， 它 兼 有 键 值 数据 库 和 列 值 数据 库 两 者 的 长 
处 ， 它 的 查询 功能 很 优秀 。 
最 初 ，NoSQL 破 坏 并 引 以 为 荣 的 特点 是 它 不 满足 ACID( 原 子 性 、 一 臻 性、 隔离 
性 和 持久 性 )， 这 是 它 的 优点 ， 也 是 其 问题 所 在 。 


15.1.5 传统 关系 数据 库 迎 来 变革 


大 数据 作为 一 个 IT 技术 潮流 ， 传 统 数据 库 厂商 自然 不 会 错过 ， 传 统 数据 库 厂商 
陆续 支持 Hadoop 。 

“以 不 变 应 万 变 ” 不 再 是 大 数据 时 代 应 有 的 策略 ， 老 牌 数据 库 厂商 在 保持 传统 
市 场 领先 的 基础 上 ， 不 断 拓展 新 市 场 。 

以 Hadoop 为 例 ， 传 统 数据 库 厂商 纷纷 推出 各 自 的 大 数据 解决 方案 ， 这 其 中 涉及 
最 多 的 就 是 Hadoop 技 术 。 

Oracle: Oracle 公 司 在 数据 库 领 域 一 直 处 于 领先 地 位 ， 其 旗下 的 Oracle 数 据 库 是 
一 款 最 受 欢迎 的 关系 型 数据 库 产品 。Oracle 公 司 更 专注 的 是 结构 化 的 工具 和 RDBMS 

台 ， 但 在 过 去 的 几 年 中 ，Oracle 公 司 也 开始 走 进 大 数据 时 代 。 事 实 也 的 确 如 此 ， 

Oracle 公 司 意识 到 Hadoop 在 大 数据 处 理 方面 的 潜力 ， 推 出 以 Hadoop 为 基础 的 大 数 
据 机 (Big Data Application)， 其 中 包括 开源 Apache Hadoop、Oracle NoSQL 数 据 库 、 
Oracle 数 据 集成 Hadoop 应 用 适配器 、Oracle Hadoop 装 载 器 以 及 开源 R， 并 与 Cloudera 


— 255. —— 


第 四 部 分 

大 数据 架构 师 拓展 

公司 合作 提供 Apache Hadoop 系 列 软件 。 现 在 ， 大 数据 作为 Oracle 云 战略 的 基础 设 
施 .， 提 供 安全 、 自 动 、 弹 性 的 服务 交付 的 强 有 力 的 Hadoop 平 台 ， 和 现 有 oracle 数据 
库 中 的 企业 数据 完全 集成 。 

IBM: IBM 是 关系 型 数据 库 的 创造 者 ， 对 数据 库 的 诞生 和 发 展 举足轻重 ， 然 而 
处 在 大 数据 的 新 时 期 ， 老 牌 关 系 型 数据 库 也 需要 不 断 创 新 、 迎 接 挑战 。IBM 推 出 
的 大 数据 云 解 决 方案 ， 强 调 数据 库 即 服务 和 大 数据 分 析 ， 云 平台 IBM Bluemix 包 括 
Hadoop、spark、MongoDB、Redis、Elasticsearch 和 PostgreSQL 服务 等 一 系列 组 件 ， 
通过 新 的 路 径 解决 大 数据 分 析 处 理 。 

Microsoft: Microsoft 作 为 全 球 知 名 的 软件 公司 ， 在 数据 库 领 域 的 地 位 不 容 小 
BR. Microsoft SQL Server 2012 引 入 Hadoop， 帮 助 客户 无 颖 存储 和 处 理 所 有 类 型 的 数 
据 ， 包 括 结构 化 、 非 结构 化 和 实时 数据 。 除 此 之 外 ，Microsoft 还 将 同时 在 Windows 
Azure 平 台 和 Windows Server 上 提供 Hadoop， 形 成 完整 的 大 数据 解决 方案 ， 能 够 把 
Hadoop 的 高 性 能 、 高 可 扩展 与 微软 产品 易 用 、 易 部 署 的 传统 优势 融合 到 一 起 。 

SAP: SAP 公 司 是 全 球 知名 的 企业 管理 软件 供应 商 ， 自 SAP 收 购 Sybase 以 来 ， 数 
据 库 成 为 其 战略 的 一 个 重要 基础 设施 。SAP 将 数据 库 技 术 作 为 重点 发 展 领域 之 一 ， 
形成 了 以 SAP HANA 为 核心 ， 以 SAP Sybase 数据 库 为 基础 的 大 数据 战略 。 在 这 一 战 
略 中 ， 特 别 重要 的 一 环 就 是 Hadoop。 通 过 SAP HANA 和 SAP SybaseIQ 与 Hadoop 的 集 
成 ， 增 强 对 Hadoop 等 大 数据 源 的 获取 能 力 ， 并 提供 深度 集成 的 预 处 理 基础 架构 。 

EMC Greenplum: EMC 是 全 球 知名 信息 存储 服务 提供 商 ， 与 AP 相似， 在 2010 
年 收购 了 Greenplum， 开 始 发 展 其 数据 库 市 场 。 目 前 Greenplum 的 数据 库 产 品 包括 传 
统 的 GreenplumDatabase 和 GreenplumHD(Hadoop)， 前 者 用 来 应 对 企业 结构 化 数据 ， 
后 者 可 以 将 非 结构 化 数据 导入 Greenplum 中 进行 存储 和 分 析 。EMC 在 中 国 的 市 场 战 
略 ， 以 “大 数据 推动 业务 转型 ”为 核心 ，EMC 之 所 以 会 推出 GreenplumHadoop 版 本 ， 
是 对 Hadoop 的 未 来 发 展 前 景 充满 信心 。 

除了 支持 Hadoop 之 外 ， 传 统 数 据 库 厂商 还 纷纷 推出 了 各 自 的 大 数据 解决 方案 ， 
提供 端 到 端的 大 数据 服务 和 支持 。 

Oracle: Oracle 推 出 Oracle 大 数据 机 (Big Data Appliance, 简称 BDA) 和 Exalytics 
商务 智能 服务 器 ， 再 加 上 Oracle Exadata 数 据 库 云 服务 器 ， 为 用 户 提 供 一 个 端 到 
端的 大 数据 解决 方案 。 在 捕获 和 组 织 大 数据 的 环节 ，Oracle 提 供 了 Oracle 数 据 
库 、OracleNoSQL 数 据 库 、Oracle 大 数据 机 、Oracle 大 数据 连接 器 和 Oracle Data 
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Integrator。 在 大 数据 分 析 阶 段 ，Oracle 提 供 了 Oracle Exadata 数 据 库 云 服务 器 、Oracle 
Exalytics 商 务 智 能 云 服务 器 、Oracle 数 据 仓库 和 Oracle 高 级 分 析 等 解决 方案 。 

Microsoft: Microsoft 大 数据 解决 方案 HDInsight 是 Azure 的 Hadoop 解决 方案 ， 并 
提供 对 Storm、HBase、 Pig. Hive, Sqoop. Oozie, Ambari 等 的 实现 。 HDInsight 还 
可 集成 商业 智能 (BD 工具 ， 例 如 Excel、SQL Server Analysis Services 和 SQL Server 
Reporting Services。 对 于 Windows Azure， 用 Microsoft 自 己 的 话说 就 是 数据 管理 、 数 
据 扩充 和 洞察 力 。 在 数据 管理 层 中 其 主要 包括 三 款 产 品 : SQLServer、SQLServer 并 
行 数 据 仓 库 和 Hadoop on Windows。 在 数据 扩充 层 ，Microsoft 提 供 的 最 重要 的 平台 是 
Windows Azure Marketplace。 从 洞察 力 的 层面 ，Microsoft 提 供 了 两 款 主 要 的 产品 ， 分 
Hill Fé Office Powerpivot 和 SharePoint PowerView。 

IBM: IBM 大 数据 包括 非常 丰富 的 产品 线 ， 并 结合 软件 、 硬 件 、 咨 询 服务 和 研 
究 的 最 新 技术 。IBM 大 数据 解决 方案 包括 “大 数据 平台 ”和 “大 数据 分 析 ” 两 个 方 
面 ， 其 中 “大 数据 平台 ”提供 的 是 大 数据 管理 和 整合 治理 能 力 ，“ 大 数据 分 析 ” 提 
供 的 是 利用 数据 获取 价值 和 洞察 力 的 能 力 。 

SAP: SAP 实 时 数据 平台 整合 SAP HANA 和 Sybase 的 一 系列 数据 库 ， 涵 盖 SAP 
SybaseIQ, SAP SybaseESP、SAP SybaseASE 和 SAP Enterprise Information Management 
等 数据 管理 功能 ， 为 大 数据 的 收集 、 存 储 、 处 理 、 消 费 等 完整 的 信息 生命 周期 提供 
支持 。 


15.1.6 NewSQL 概 念 兴起 


NewSQL 是 对 各 种 新 的 可 扩展 /高 性 能 数据 库 的 简称 ， 同 时 也 指 这 样 一 类 新 式 的 
关系 型 数据 库 管理 系统 ， 针 对 OLTP( 读 - 写 ) 工 作 负载 ， 追 求 提供 和 NoSQL 系 统 相 同 的 
扩展 性 能 ， 这 类 数据 库 不 仅 具 有 NoSQL 对 海量 数据 的 存储 管理 能 力 ， 还 保持 了 传统 
数据 库 支持 ACID 和 SQL 等 特性 。NewSQL 指 对 传统 数据 库 厂 商 做 出 挑战 的 一 类 新 型 
数据 库 系统 。NewSQL 厂 商 的 共同 之 处 在 于 研发 新 的 关系 数据 库 产 品 和 服务 ， 通 过 这 
些 产 品 和 服务 ， 把 关系 模型 的 优势 发 挥 到 分 布 式 体系 结构 中 ， 或 者 提高 关系 数据 库 
的 性 能 到 一 个 不 必 进行 横 向 扩展 的 程度 。 

技术 的 繁荣 ， 新 的 产品 如 雨后春笋 般 层出不穷 ， 如 Clustix、ScaleArc(ScaleBase)、 
GenieDB、Schooner、VoltDB、RethinkDB、ScaleDB、CodeFutures、Translattice 和 
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NUODB(NimbusDB) 等 。 以 Drizzle 为 例 ， 这 类 技术 都 是 基于 mysql 或 postgresql 之 上 重 
新 进行 架构 设计 ， 而 每 一 款 产 品 又 有 其 自身 满足 特定 场景 的 特点 ， 至 少 在 某 些 方面 
是 这 样 ， 如 满足 云 数 据 库 的 要 求 ， 而 且 必 须 找到 一 个 这 样 能 引发 使 用 者 兴趣 ， 进 而 
有 可 能 替代 其 他 产品 的 理由 。 

毫 无 疑问 的 是 ，newsql 产 品 的 出 现 ， 从 菜 种 程度 上 来 讲 ， 对 传统 数据 库 供应 
商 势 必 选 成 一 定 的 影响 。 但 问题 是 问题 领域 的 技术 瓶颈 对 于 传统 数据 库 供应 商 来 
说 ， 原 本 就 不 能 完全 解决 ，newsql 算 是 应 运 而 生 ，newsql 带 着 改变 而 来 ， 支 持 关 系 
数据 模型 ， 使 用 SQL 作 为 主要 的 接口 ， 在 基本 特性 的 基础 上 ， 着 力 于 如 下 技术 方向 
的 努力 。 

在 架构 设计 方面 ， 有 两 类 设计 模式 ， 一 类 数据 库 系统 工作 在 一 个 分 布 式 集群 的 
节点 上 ， 其 中 每 个 节点 拥有 一 个 数据 子 集 ，SQL 查 询 被 分 成 查询 片段 发 送 给 自己 所 
在 的 数据 的 节点 上 执行 ， 数据库 可 以 通过 添加 额外 的 节点 来 线性 扩展 。 另 一 类 数据 
库 系 统 通常 有 一 个 单一 的 主 节点 的 数据 源 。 它 们 有 一 组 节点 用 来 做 事务 处 理 ， 这 些 
节点 接 到 特定 的 SQL 查询 后 ， 会 把 它 所 需 的 所 有 数据 从 主 节点 上 取 回 来 ， 然 后 执行 
SQL 查询 ， 再 返回 结果 。 

高 度 优化 的 SQL 存储 引擎 也 是 技术 努力 方向 之 一 。 这 类 系统 提供 了 MySQL 相 同 
的 编程 接口 ， 但 扩展 性 比 内 置 的 引擎 InnoDB 更 好 。 

Newsql 不 断 地 向 人 们 传递 着 这 样 的 理念 ， 没 有 最 好 ， 只 有 更 好 ， 总 有 一 款 适合 
你 。newsql 光 环 是 如 此 耀眼 ， 但 一 定 不 能 忽视 mysql 和 postgresql 在 基础 工作 上 的 完美 
付出 。 


15.2 各 类 系统 求同存异 


无 论 是 传统 企业 ， 还 是 引领 技术 潮流 的 大 型 网 络 公司 ， 其 数据 库 体 系 中 都 不 可 
避免 地 共存 着 传统 的 结构 化 数据 (如 用 户 的 标准 信息 、 数 据 库 元 数据 信息 等 )， 也 存在 
着 图 片 、 视 频 、 文 档 或 网 页 等 非 结构 化 数据 ， 有 数据 的 地 方 ， 就 会 有 数据 处 理 、 数 
据 管理 、 数 据 库 及 其 技术 ， 所 以 关系 数据 库 与 NoSQL 数 据 库 并 存 将 是 数据 库 技术 发 
展 的 基本 面 。 另 一 方面 ， 关 系数 据 库 、NoSQL 和 NewSQL 都 充分 认识 到 了 对 方 的 长 
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处 和 客户 需求 ， 每 一 个 新 数据 处 理 技术 都 在 “拼命 地 集成 ”其 他 范围 数据 库 中 的 特 

性 。NewSQL 系 统 实现 NoSQL 的 核心 特性 ， 而 NoSQL 越 来 越 多 地 试图 实现 “传统 ” 

数据 库 的 功能 : 如 支持 SQL 或 在 一 定 范 围 内 “有 保留 地 支持 ACID， 至 少 是 可 配置 的 
持久 化 机 制 ”。 

可 以 肯定 的 是 ， 无论 是 关系 数据 库 的 发 展 、NoSQL 的 强势 展开 、NewSQL 的 跃 
跃 欲 试 ， 还 是 传统 关系 数据 库 大 领军 者 进入 NoSQL 和 领域， 大 数据 时 代数 据 爆 炸 式 增 
长 的 同时 ， 数 据 库 技术 将 变 得 更 加 强大 、 高 效 ， 也 许 不 久 的 将 来 人 们 就 不 用 再 区 分 
关系 / 非 关系 数据 库 了 。 

对 于 一 个 商业 系统 的 解决 方案 ， 取 决 于 其 所 处 的 场景 ， 分 而 治之 。 大 数据 不 能 
用 传统 方法 处 理 ， 传 统 关系 型 数据 库 起 源 于 OLTP 功 能 ， 能 够 保证 数据 准确 记录 ; 而 
大 数据 是 新 的 应 用 ， 是 OLAP 的 体现 ， 这 也 是 关系 型 数据 库 不 能 满足 大 数据 的 原因 。 


15.3 数据 库 的 发 展 展望 


ICT 技 术 的 发 展 ， 造 就 了 互联 网 技术 的 广泛 运用 ， 同 时 后 者 也 加 速 推动 IT 技术 
的 发 展 ， 越 来 越 多 的 新 型 IT 创 新 者 加 入 到 大 数据 的 洪流 中 ， 少 数 的 行业 巨头 垄断 技 
术 的 时 代 已 经 过 去 ， 开 源 的 精神 也 指明 了 一 点 ， 感 谢 SQL 的 发 明 者 ， 让 大 家 有 一 个 
统一 思维 的 界面 ，NoSQL 就 像 平静 湖面 上 的 一 道 许 施 ， 技 术 的 进步 总 是 螺旋 式 上 升 
的 ， 从 单机 到 分 布 集群 ， 从 行 式 到 列 式 存储 结构 ， 在 大 数据 的 背景 下 ， 传 统 数据 库 
技术 只 是 众多 技术 的 一 个 分 支 ， 在 历史 事件 中 曾经 鲜艳 地 绽放 过 ， 将 来 也 会 。 问 
题 领域 永远 都 会 OLTP、OLAP、BIGDATA 共 存 ， 总 在 上 演 实时 、 交 互 、 后 分 析 协 
奏 曲 。 
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云 公司 的 云 计 算 产 品目 前 提供 基于 虚拟 化 的 IaaS 云 环境 ， 云 CEO 和 希望 公司 的 大 数 
据 产 品 能 平稳 部 署 其 上 ， 小 明 认 为 必须 先 熟 悉 虚 拟 化 技术 及 其 优 缺点 才能 分 析出 部 
署 的 优 劣势 。 同 时 云 公司 想 基于 公司 大 数据 产品 来 完善 其 云 计 算 产 品 线 的 需求 ， 看 
起 来 确实 是 一 个 请 人 的 发 展 方向 。 


16.1 虚拟 化 概述 


16.1.1 什么 是 虚拟 化 


虚拟 化 是 一 个 广义 的 术语 ， 在 计算 机 方面 通常 是 指 计算 元 件 在 虚拟 的 基础 上 而 
不 是 真实 的 基础 上 运行 。 虚 拟 化 技术 可 以 扩大 硬件 的 容量 ， 简 化 软件 的 重新 配置 过 
程 。CPU 的 虚拟 化 技术 可 以 单 CPU 模 拟 多 CPU 并 行 ， 允 许 一 个 平台 同时 运行 多 个 操作 
系统 ， 并 且 应 用 程序 可 以 在 相互 独立 的 空间 内 运行 而 互 不 影响 ， 从 而 显著 提高 计算 
机 的 工作 效率 。 

虚拟 化 是 一 种 经 过 验证 的 软件 技术 ， 它 正 迅速 改变 着 IT 的 面貌 ， 并 从 根本 上 改 
变 着 人 们 的 计算 方式 。 如 今 ， 具 有 强大 处 理 能 力 的 x86 计算 机 硬件 仅仅 运行 了 单个 
操作 系统 和 单个 应 用 程序 。 这 使 得 大 多 数 计算 机 远 未 得 到 充分 利用 。 利 用 虚拟 化 ， 
可 以 在 一 台 物 理 机 上 运行 多 个 虚拟 机 ， 因 而 得 以 在 多 个 环境 间 共 享 这 一 台 计算 机 的 资 
源 。 不 同 的 虚拟 机 可 以 在 同一 台 物 理 机 上 运行 不 同 的 操作 系统 以 及 多 个 应 用 程序 。 

虚拟 化 技术 与 多 任务 以 及 超 线程 技术 是 完全 不 同 的 。 多 任务 是 指 在 一 个 操作 系 
统 中 多 个 程序 同时 并 行 运行 ， 而 在 虚拟 化 技术 中 ， 则 可 以 同时 运行 多 个 操作 系统 ， 
而 且 每 一 个 操作 系统 中 都 有 多 个 程序 运行 ， 每 一 个 操作 系统 都 运行 在 一 个 虚拟 的 
CPU 或 者 虚拟 主机 上 ; 而 超 线程 技术 只 是 单 CPU 模 拟 双 CPU 来 平衡 程序 运行 性 能 ， 这 
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两 个 模拟 出 来 的 CPU 是 不 能 分 离 的 ， 只 能 协同 工作 。 
虚拟 化 是 一 个 抽象 层 ， 它 将 物理 硬件 与 操作 系统 分 开 ， 从 而 提供 更 高 的 IT 资源 
利用 率 和 灵活 性 。 
虚拟 化 允许 具有 不 同 操作 系统 的 多 个 虚拟 机 在 同一 物理 机 上 独立 并 行 运行 。 每 
个 虚拟 机 都 有 自己 的 一 套 虚拟 硬件 (例如 RAM、CPU、 网 卡 等 )， 可 以 在 这 些 硬 件 中 
加 载 操作 系统 和 应 用 程序 。 无 论 实际 采用 了 什么 物理 硬件 组 件 ， 操 作 系 统 都 将 它们 
视 为 一 组 一 致 、 标 准 化 的 硬件 。 


16.1.2 ”虚拟 化 的 好 处 


虚拟 化 的 好 处 ， 如 图 16-1 所 示 。 


图 16-1 虚拟 化 的 好 处 


效率 : 将 原本 一 台 服 务 器 的 资源 分 配给 了 数 台 虚拟 化 的 服务 器 ， 有 效 地 利用 了 
闲置 资源 ， 确 保 企业 应 用 程序 发 挥 出 最 高 的 可 用 性 和 性 能 。 

隔离 : 虽然 虚拟 机 可 以 共享 一 台 计 算 机 的 物理 资源 ， 但 它们 彼此 之 间 仍 然 是 完 
全 隔离 的 ， 就 像 它们 是 不 同 的 物理 计算 机 一 样 。 因 此 ， 在 可 用 性 和 安全 性 方面 ， 虚 
拟 环境 中 运行 的 应 用 程序 之 所 以 远 优 于 在 传统 的 非 虚拟 化 系统 中 运行 的 应 用 程序 ， 
隔离 就 是 一 个 重要 的 原因 。 

可 靠 : 虚拟 服务 器 是 独立 于 硬件 进行 工作 的 ， 通 过 改进 灾难 恢复 解决 方案 提高 
了 业务 连续 性 ， 当 一 台 服 务 器 出 现 故 障 时 可 在 最 短 时 间 内 恢复 且 不 影响 整个 集群 的 
运作 ， 在 整个 数据 中 心 实现 高 可 用 性 。 

成 本 : 降低 了 部 署 成 本 ， 只 需要 更 少 的 服务 器 就 可 以 实现 需要 更 多 服务 器 才能 
做 到 的 事情 ， 也 间接 降低 了 安全 等 其 他 方面 的 成 本 。 

RA: 所 有 的 虚拟 服务 器 都 与 正常 的 x86 系 统 相 兼 容 ， 他 改进 了 桌面 管理 的 方 
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式 ， 可 部 署 多 套 不 同 的 系统 ， 将 因 兼 容 性 造成 问题 的 可 能 性 降 至 最 低 。 

便于 管理 : 提高 了 服务 器 /管理 员 比 率 ， 一 个 管理 员 可 以 轻松 地 管理 比 以 前 更 多 
的 服务 器 而 不 会 造成 更 大 的 负担 。 

通过 实现 IT 基础 架构 的 虚拟 化 ， 可 以 降低 IT 成 本 ， 同 时 提高 现 有 资产 的 效率 、 
利用 率 和 灵活 性 。 在 全 世界 ， 各 种 规模 的 公司 都 享受 着 服务 器 的 虚拟 化 带 来 的 好 
处 。 数 千家 组 织 都 在 采用 服务 器 虚拟 化 解决 方案 。 


16.1.3 ”虚拟 化 分 类 


虚拟 化 的 分 类 ， 如 表 16-1 所 示 。 
表 16-1 虚拟 化 的 分 类 


类 型 代表 产品 
硬件 分 区 IBM/HP 等 大 型 机 硬件 分 区 技术 
虚拟 机 
. ..__ | EMC VMware Mircosoft Virtual PC/Server Parallels 
Virtual Machine Monitor 
准 虚拟 机 : 
Para- Virtualization Hen Project 
虚拟 操作 系统 SWsoft Mirtinzzo/Onenv yz, Project Sun Solaris Container HP vSE 
legis FreeBSD Jail 
OS Virtualization : 
Linux Vserver 
容器 技术 Docker 


(1) 硬件 分 区 技术 。 硬 件 分 区 技术 如 图 16-2 所 示 。 硬 件 资源 被 划分 成 数 个 分 区 
每 个 分 区 享有 独立 的 CPU、 内 存 ， 并 安装 独立 的 操作 系统 。 在 一 台 服 务 器 上 ， 存 在 
多 个 系统 实例 ， 同 时 启动 了 多 个 操作 系统 。 这 种 分 区 方法 的 主要 缺点 是 缺乏 很 好 的 
灵活 性 ， 不 能 对 资源 做 出 有 效 调 配 。 随 着 技术 的 进步 ， 现 在 对 于 资源 划分 的 颗粒 已 
经 远 远 提升 ， 例 如 在 IBM AIX 系 统 上 ， 对 CPU 资源 的 划分 颗粒 可 以 达到 0.1 个 CPU。 
这 种 分 区 方式 ， 在 目前 的 金融 领域 ， 比 如 在 银行 信息 中 心得 到 了 广泛 采用 。 

(2) 虚拟 机 技术 。 在 虚拟 机 技术 (Virtual Machine Monitor) 中 ， 不 再 对 底层 的 硬 
件 资源 进行 划分 ， 而 是 部 署 一 个 统一 的 Host 系 统 。 在 Host 系 统 上 ， 加 装 了 Virtual 
Machine Monitor， 虚 拟 层 作为 应 用 级 别 的 软件 而 存在 ， 不 涉及 操作 系统 内 核 。 虚 拟 
层 会 给 每 个 虚拟 机 模拟 一 套 独立 的 硬件 设备 ， 包 含 CPU、 内 存 、 主 板 、 显 卡 、 网 卡 
等 硬件 资源 ， 在 其 上 安装 所 谓 的 Guest 操 作 系统 。 最 终 用 户 的 应 用 程序 ， 运 行 在 Guest 
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图 16-2 ”虚拟 化 硬件 区 分 
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Virtual Hardware 


Virtual Machine Monitor 


Host OS 
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16-3 ”虚拟 机 部 署 


这 种 虚拟 机 运行 的 方式 有 一 定 的 优点 ， 比 如 能 在 一 个 节点 上 安装 多 个 不 同类 型 
的 操作 系统 ， 但 缺点 也 非常 明显 ， 虚 拟 硬 件 设备 要 消耗 资源 ， 大 量 代码 需要 被 翻译 
执行 ， 造 成 了 性 能 的 损耗 ， 使 其 更 合适 用 于 实验 室 等 特殊 环境 。 

(3) 准 虚拟 机 技术 。 为 了 改善 虚拟 机 技术 (Virtual Machine Monitor) 的 性 能 ， 一 种 
新 的 准 虚 拟 化 技术 (Para-Virtualizion) 技 术 诞 生 了 。 这 种 虚拟 技术 以 Xen 为 代表 ， 其 特 
点 是 修改 操作 系统 的 内 核 ， 加 入 一 个 Xen Hypervisor 层 。 它 允许 安装 在 同一 硬件 设备 
上 的 多 个 系统 同时 启动 ， 由 Xen Hypervisor 来 进行 资源 调配 ( 见 图 16-4)。 
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16-4 Xen Hypervisor 资 源 调配 


在 这 种 虚拟 环境 下 ， 依 然 需要 模拟 硬件 设备 ， 安 装 Guest 操 作 系统 ， 并 且 还 需要 
修改 操作 系统 的 内 核 。Xen 相 对 于 传统 的 Virtual Machine Monitor， 性 能 稍 有 提高 ， 
但 并 不 十 分 显著 。 为 了 进一步 提高 性 能 ，Intel 和 AMD 分 别 开 发 了 VT 和 Pacifica 虚 拟 技 
术 ， 将 虚拟 指令 加 入 到 CPU 中 。 使 用 了 CPU 支持 的 硬件 虚拟 技术 ， 将 不 再 需要 修改 
操作 系统 内 核 ， 而 是 由 CPU 指 令 集 进行 相应 的 转换 操作 。 

(4) 操作 系统 虚拟 化 技术 。 最 新 的 虚拟 化 技术 已 经 发 展 到 了 操作 系统 虚拟 化 ， 
以 SWsoft 的 Virtuozzo/OpenVZ 和 Sun 基 于 Solaris 平 台 的 Container 技 术 为 代表 ， 其 中 
Virtuozzo 是 商业 解决 方案 ， 而 OpenVZ 是 以 Virtuozzo 为 基础 的 开源 项 目 。 他 们 的 特 
点 是 一 个 单一 的 节点 运行 着 唯一 的 操作 系统 实例 。 通 过 在 这 个 系统 上 加 装 虚拟 化 平 
台 ， 可 以 将 系统 划分 成 多 个 独立 隔离 的 容器 ， 每 个 容器 是 一 个 虚拟 的 操作 系统 ， 
被 称 为 虚拟 环境 ( 即 VE，Virtual Environment)， 也 被 称 为 虚拟 专用 服务 器 ( 即 VPS， 
Virtual Private Server)， 如 图 16-5 所 示 。 


Execution Environment#1 | Execution Environment#2 | { Execution Environment#3 | | Execution Environment#4 
Users ] | Users | [ Users | | Users 
Applications | Applications | [ Applications | | Applications 
System Apps ] | System Apps | ( System Apps | | System Apps 
Operation System Virtualization 
Host OS 


) 
L | @ > 
图 16-5 虚拟 专用 服务 器 部 署 


在 操作 系统 虚拟 化 技术 中 ， 每 个 节点 上 只 有 唯一 的 系统 内 核 ， 不 虚拟 任何 硬 
件 设备 。 此 外 ， 多 个 虚拟 环境 以 模板 的 方式 共享 一 个 文件 系统 ， 人 性 能 得 以 大 幅度 提 
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升 。 在 生产 环境 中 ， 一 台 服 务 器 可 根据 环境 需要 ， 运 行 一 个 VE/VPS， 或 者 运行 上 百 
个 VE/VPS。 所 以 ， 操 作 系统 虚拟 化 技术 是 面向 生产 环境 、 商 业 运行 环境 的 技术 。 

(5) 容器 虚拟 化 Docker。 现 在 docker 内 部 使 用 的 技术 是 Linux 容 器 (LXC 技 术 )， 运 
行 在 与 它 宿 主机 同样 的 操作 系统 上 ， 准 许 它 可 以 和 宿主 机 共享 许多 系统 资源 ， 它 也 
会 使 用 AuFS 作 为 文件 系统 ， 管 理 网 络 。AuFS 是 一 个 层 状 的 文件 系统 ， 因 此 可 以 有 一 
个 只 读 部 分 和 一 个 只 写 部 分 ， 二 者 结合 起 来 ， 可 以 使 系统 的 共同 部 分 用 做 只 读 ， 那 
部 分 被 所 有 容器 共享 ， 并 且 给 每 个 容器 自己 的 可 写 区 域 。 

让 我 们 假设 目前 容器 镜像 (image) 容 量 是 1GB， 如 果 你 想 用 一 个 完整 的 虚拟 机 来 
装载 ， 需 要 的 容量 大 小 是 1GB 乘 以 需要 虚拟 机 的 数量 。 但 使 用 Linux 容 器 虚拟 化 技术 
(LXC) 和 AuFS， 你 可 以 共享 1GB 容 量 ， 如 果 你 需要 1 000 个 容器 ， 假 设 他 们 都 运行 在 
样 的 系统 影像 上 ， 你 仍然 可 以 分 配给 容器 系统 比 1GB 多 一 点 的 空间 。 

Docker 相 比 于 完全 的 虚拟 机 ， 可 以 实现 更 多 的 基础 资源 共享 ， 减 少 对 资源 的 消 
耗 。 完 整 的 虚拟 机 独 享 分 配给 它 的 全 部 资源 ， 虽 然 在 虚拟 机 之 间 获 得 了 更 强 的 资源 隔 
离 ， 但 代价 是 资源 难以 共享 。 所 以 ， 完 整 的 虚拟 化 系统 对 资源 的 需求 是 很 庞大 的 ( 见 
表 16-2)。 


可 


表 16-2 容器 技术 与 虚拟 化 技术 比较 


容器 技术 ERLE 
RESET [hy JEEP RBCRIREETIR) A, IGBLE 

启动 速度 | 快 ， 几 种 名 得 ， 几 分 名 

运行 状态 | MRIS REBEL, BERR eps FHypervision 上 
并发 性 ”| 一 台 宿 主机 可 以 启动 成 十 上 百 个 容器 最 多 几 十 个 虚拟 机 

性 能 接 i 宿 主机 林地 进 和 过 于 入 主机 

资源 利用 率 ， | 高 tf 


16.2 OpenStack 云 管理 架构 实现 


16.21 云 计算 的 定义 


云 计 算 技 术 是 一 种 全 新 的 计算 模式 ， 它 利用 互联 网 实现 了 随时 随地 、 按 需 、 快 
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捷 地 访问 共享 资源 池 (如 计算 设施 、 存 储 设备 、 应 用 程序 等 )。 云 计算 平台 分 为 以 下 几 
层 : 物理 设施 、 虚 拟 化 、 管 理 、 服 务 提供 ， 云 平台 通过 虚拟 化 技术 将 物理 设施 进行 
虚拟 化 ， 进 而 提供 一 个 可 灵活 伸缩 的 动态 资源 池 ， 以 提高 物理 设施 资源 的 利用 率 。 
云 平 台中 的 管理 层 主要 负责 对 物理 设施 资源 和 经 过 虚拟 化 技术 抽象 而 成 的 虚拟 资源 
池 进 行 部 署 、 监 控 、 管 理 等 ， 服 务 提供 层 则 是 调用 管理 层 的 一 些 功能 提供 某 种 形式 
的 云 服务 。 

云 计算 技术 实现 了 硬件 成 本 低 、 资 源 利用 率 高 以 及 高 可 用 性 三 大 特征 。 云 平台 
通常 使 用 大 量 廉价 服务 器 作为 硬件 设施 ， 很 大 程度 地 降低 了 硬件 成 本 ， 云 环境 中 使 
用 虚拟 化 技术 把 物理 的 计算 资源 虚拟 成 可 分 配 的 更 小 的 单元 ， 在 相关 分 配 调度 策略 
管理 下 使 资源 得 到 更 充分 地 利用 。 云 平台 内 部 通过 虚拟 化 技术 、 虚 拟 机 迁移 技术 、 
元 余 技术 等 来 实现 数据 存储 和 计算 服务 的 高 可 用 性 。 云 计算 一 般 具备 如 下 特征 。 

> 超大 规模 。Google 云 计算 已 经 拥有 100 多 万 台 服 务 器 。 

> 虚拟 化 。 支 持 用 户 在 任意 位 置 、 使 用 各 种 终端 获取 应 用 服务 。 

> 高 可 靠 性 。“ 云 ”使 用 了 数据 多 副本 容错 、 计 算 节点 同 构 可 互 换 等 措施 来 保 
证 服务 的 高 可 靠 性 。 
通用 性 。 云 计算 不 针对 特定 的 应 用 ， 在 不 同行 业 的 基础 上 有 不 同 的 应 用 。 

高 可 扩展 性 。“ 云 ”的 规模 可 以 动态 伸缩 ， 满 足 应 用 和 用 户 增长 的 需要 。 
> 按 需 服务 。 用 户 按 需 购买 使 用 的 接口 。 
> 较 廉价 。 企 业 无 须 负 担 日 益 高 昂 的 数据 中 心 管理 成 本 。 


v wv 


16.2.2 云 计算 的 分 类 


云 计 算 按照 服务 规模 和 范围 可 以 分 为 公有 云 Public Cloud)、 私 有 云 (PrivateCloud) 
和 混合 云 (Hybrid cloud) 三 大 类 。 

(1) 公有 云 。 公 有 云 是 指 云 数据 中 心 由 云 计算 运营 商 提供 ， 云 平台 运营 商 负责 
管理 和 维护 所 有 的 云 平台 基础 设施 ， 主 要 包括 物理 服务 器 、 存 储 、 网 络 等 IT 资源 。 
公有 云 平台 运营 商会 以 服务 的 形式 提供 一 些 最 典型 的 、 大 众 化 的 、 应 用 广泛 的 云 服 
务 。 云 用 户 不 拥有 资源 ， 一 般 是 将 自己 的 软件 及 服务 部 署 在 公有 云 运 营 商 的 数据 中 
心中 通过 技术 手段 隔离 出 来 一 个 专用 的 计算 环境 ， 并 通过 VPN 等 安全 通道 与 之 相连 
接 ， 云 用 户 按 使 用 量 进行 付费 。 公 有 云 计算 平台 的 开放 性 决定 了 它 的 安全 威胁 相对 
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(2) 私有 云 。 其 又 称 内 部 云 ， 是 构建 在 企业 防火 墙 内 部 的 专 有 云 平台 ， 企 业 外 部 
用 户 不 能 访问 其 云 服 务 。 相 对 公有 云 平台 ， 企 业 对 自己 构建 的 云 平 台 有 完全 的 定制 
化 能 力 ， 能 更 有 效 地 进行 访问 安全 、 数 据 安 全 以 及 服务 质量 的 控制 等 ， 但 由 于 企业 
私有 云 成 本 较 高 ， 整 个 云 平 台 的 资源 利用 率 相对 低 于 公有 云 平台 。 

(3) 混合 云 。 由 于 公有 云 安全 威胁 较 高 ， 私 有 云 成 本 较 高 ， 这 样 就 出 现 了 介 于 公 
有 云 和 私有 云 之 间 的 一 种 解决 方案 一 一 混合 云 。 混 合 云 是 一 种 既 能 提供 私有 云 计算 
服务 ， 也 能 提供 公有 云 计算 服务 的 混合 云 计 算 平台 。 

云 计算 按照 服务 形式 和 类 型 可 以 分 为 基础 设施 即 服务 (Infrastructure as a Service, 
laaS)、 平 台 即 服务 (Platform as a Service，PaaS) 和 软件 即 服 务 (Software as a Service， 
SaaS) 三 大 类 。 

(1) 基础 设施 即 服务 (IaaS)。 云 计算 架构 着 重 于 用 虚拟 化 技术 屏蔽 底层 的 硬件 差 
异 ， 并 把 物理 资源 虚拟 化 后 再 向 用 户 提供 各 种 公共 的 资源 ， 这 些 资源 包括 计算 、 存 
储 、 网 络 、 操 作 系统 等 资源 。 这 正 是 IaaS 基 础 设施 架构 所 遵循 的 模型 ， 除 此 之 外 它 还 
在 此 基础 上 添加 了 按 使 用 量 计 费 等 功能 。IaaS 的 用 户 可 以 在 其 租用 的 平台 上 安装 任意 
的 操作 系统 和 软件 ， 但 是 用 户 并 不 能 控制 IaaS 云 平台 底层 的 设备 。 

IaaS 用 虚拟 化 技术 把 底层 庞大 的 异 构 硬 件 资源 封装 抽象 成 去 数据 中 心 、 云 服务 
机 群 等 。 对 于 这 么 庞大 的 机 群 资源 ， 如 何 很 好 地 分 配 、 调 度 和 使 用 以 及 如 何 做 好 负载 均 
衡 是 摆 在 各 大 IT 公司 和 各 云 计算 研究 机 构 面前 的 一 个 重大 课题 ， 如 果 能 恰当 地 调度 和 分 
配 ， 必 将 提高 IaaS 云 平台 的 资源 利用 率 、 降 低 资源 成 本 ， 达 到 绿色 高 效 节能 的 目的 。 

目前 国外 典型 的 IaaS 云 服务 平台 有 Amazon( 亚 马 逊 ) 公 司 云 计 算 Amazon 
WebServices 的 EC2(Elastic Computing Cloud) 弹 性 云 和 S3(Simple Storage Service) 简 单 
存储 服务 等 。 国 内 有 阿里 云 公 司 、 百 度 公 司 、 腾 讯 公司 、 奇 虎 360 公 司 等 各 大 互联 网 
巨头 争 相 推出 的 云 网 盘 、 云 主机 、 云 服务 器 等 aaS 服 务 。 

(2) 平台 即 服务 (PaaS)，PaaS 是 对 资源 的 进一步 抽象 ， 它 对 云 用 户 屏蔽 了 IaaS 云 
平台 的 硬件 基础 设施 以 及 操作 系统 等 实现 细节 ， 云 计算 运营 商 向 第 三 方 开发 人 员 
提供 应 用 程序 的 开发 、 测 试 和 运行 部 署 环境 ， 第 三 方 开发 人 员 可 以 在 PaaS 云 平台 
上 开发 供 自己 或 其 他 用 户 使 用 的 软件 和 服务 。 目 前 比较 典型 的 PaaS 平 台 有 Google 的 
GAE(Google App Engine) 平 台 、 微 软 的 Windows Azure 平 台 、 阿 里 巴巴 的 阿里 云 引 擎 
ACE(Aliyun Cloud Engine). 
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(3) 软件 即 服务 (SaaS)，SaaS 平 台 向 云 用 户 提供 直接 可 用 的 各 种 软件 服务 ， 云 
用 户 不 需要 购买 、 安 装 和 维护 软件 产品 ， 只 需要 通过 Internet 从 相关 的 SaaS 云 平 
台 提供 商 那 里 获取 所 需要 的 具备 某 种 功能 的 软件 服务 。 目 前 SaaS 云 平台 有 著名 的 
Salesforce.com 公 司 的 在 线 CRM(Customer Relationship Managemenb) 客 户 关系 管理 系 
统 ， 国 内 阿里 云 的 数据 分 析 、 营 销 推广 等 在 线 软件 服务 。 


16.2.3 OpenStack 资 源 管 理 实 现 框架 


1. OpenStack 概 述 


OpenStack 是 一 个 由 Rackspac 云 解决 方案 公司 和 美国 航空 航天 局 (NASA) 合 作 开 发 
推出 的 经 Apache2.0 许 可 授权 并 以 Python 语言 为 基础 的 完全 开源 项 目 ， 该 项 目 最 初 的 
设计 目的 是 用 来 存储 海量 图 片 和 空间 视频 等 信息 的 云 计算 管理 软件 ， 然 而 ， 随 着 IaaS 
云 计算 平台 需求 的 爆炸 式 增长 ，OpenStack 迅 速 发 展 成 一 整套 综合 的 开源 云 计算 项 
目 。OpenStack 兼 容 几乎 所 有 主流 的 虚拟 化 技术 ， 包 括 KVM、Xen、VMware、ESX、 
QEMU、LXC、UML 等 ， 通 过 Libvirt 虚 拟 层 来 对 用 户 屏 蔽 底层 实现 ，OpenStack 的 这 
种 对 虚拟 化 技术 较 全 面 支持 的 特点 使 它 能 够 广泛 地 部 署 在 多 种 场景 中 。 与 此 同时 ， 
OpenStack 完 全 支持 Amazon AWS 的 EC2 API 和 S3 API， 使 得 面向 AWS 开 发 的 云 应 用 可 
以 实现 无 颖 迁移 。OpenStack 的 目标 是 以 一 个 开放 的 开发 模式 打造 一 个 庞大 的 云 计算 
生态 环境 ， 并 逐渐 发 展 成 为 事实 上 的 云 计算 行业 标准 。 

OpenStack 不 局 限于 某 个 单一 的 云 解决 方案 ， 而 是 一 组 不 断 成 长 和 完善 的 云 计 算 
IaaS 开 源 解决 方案 组 件 ， 这 些 组 件 相互 协作 共同 形成 了 一 个 成 熟 而 又 强大 的 基础 设施 
及 服务 的 云 扒 栈 。 尽 管 OpenStack 是 IaaS 平 台 的 新 来 者 ， 但 以 其 出 色 的 设计 架构 和 良 
好 的 开放 性 迅速 成 为 目前 全 球 使 用 最 广泛 的 IaaS 云 平台 之 一 。 


2. OpenStack 的 组 成 架构 


OpenStack 是 一 个 开源 的 项 目 集合 ， 是 一 个 全 球 协作 开发 的 面向 公有 云 和 私有 
云 的 标准 IaaS 云 平台 操作 系统 ， 它 是 在 Apache 许 可 授权 下 推出 的 免费 的 源 软件 。 云 
服务 供应 商 、 中 小 企业 以 及 政府 部 门 等 都 可 以 使 用 OpenStack 来 构建 自己 需要 的 可 
灵活 伸缩 的 云 计 算 平台 。OpenStack 可 通过 三 个 核心 项 目 组 件 来 定义 : 计算 服务 模 
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块 (Compute Service)， 对 象 存储 服务 模块 (Object Storage Service)， 镜 像 服务 模块 。 
OpenStack 的 各 个 服务 模块 都 有 一 个 相应 的 项 目 代 号 ， 如 表 16-3 所 示 。 
表 16-3 ”OpenStack 服 务 和 代号 


组 件 描述 
Compute Service 计算 服务 
Object Storage Service 存储 服务 
Image Service 镜像 服务 
Identity Service 认证 服务 
Networking Service 虚拟 网 络 服务 
Dashboard UL 服务 


UI 界面 
本 界面 界面。 UI 界面 | 。 人 界面 


网 络 支持 Compute 


Image 5 
a 镜像 存储 一 >| TONS | 一 文件 存 全 


ES oa [s} 
Block 卷 
授权 授权 


图 16-6 ”OpenStack 各 个 组 件 之 间 的 逻辑 关系 


OpenStack 计 算 服 务 组 件 Nova) 是 OpenStack 的 弹性 计算 控制 中 枢 ， 是 其 最 核心 的 
组 件 。Nova 提 供 了 跨 物 理 机 的 云 虚 拟 机 实例 (VM) 管 理 ，VM 整 个 生命 周期 的 各 种 动 
作 (创建 、 停 止 、 唤 醒 、 重 置 、 删 除 等 ) 都 由 Nova 来 进行 管理 。 除 此 之 外 ，Nova 还 提 
供 整 个 IaaS 云 平台 的 计算 资源 管理 、 网 络 管理 以 及 授权 管理 等 功能 ， 不 仅 提供 基于 
REST 和 兼容 Amazon EC2 的 API 接 口 ， 还 支持 基于 消息 的 异步 通信 方式 。 

OpenStack 存 储 服务 组 件 (Swift) 最 初 是 由 Rackspace 云 计算 服务 托管 公司 开发 的 高 
可 用 的 分 布 式 对 象 存 储 服 务 项 目 ， 该 模块 主要 为 Nova 提 供 虚 拟 机 镜像 的 存储 服务 。 
Swift 构建 在 廉价 标准 的 硬件 存储 基础 设施 之 上 ， 不 需要 采用 磁盘 元 余 阵 列 (RAID) 
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等 技术 。 它 通过 在 软件 层面 上 引入 数据 元 余 技 术 和 数据 一 致 性 散 列 技术 (Consistent 
Hashing)， 较 少 地 牺牲 一 定 的 数据 一 致 性 ， 从 而 达到 数据 的 高 可 用 性 和 存储 的 可 伸缩 
性 。Swift 同 时 支持 多 租户 模式 以 及 容器 和 对 象 读 写 操作 ， 非 常 适合 解决 互联 网 中 非 
结构 化 数据 的 存储 问题 。 

Swift 的 存储 架构 采用 了 对 称 和 面向 资源 的 分 布 式 方式 。 它 的 所 有 组 件 都 可 扩展 ， 
为 了 避免 因 点 故障 而 影响 整个 系统 的 运转 ， 它 的 通信 方式 使 用 能 够 显著 提高 系统 吞吐 
能 力 和 缩短 系统 响应 时 间 的 非 阻塞 式 的 IO 模式 。Swift 的 系统 架构 图 如 图 16-7 所 示 。 


Object Account 
Ss > $e) 
Container 
Ring 
Object Container Account 
zonel ~zone5 
Container Account 
| Server Server 
扩展 文件 
属性 
一 一 一 一 一 一 一 一 一 一 a5 
Object Container | Account 1 收割 
File DB DB 
最 终 一 致 性 
Object Container Account 
Updater Updater Updater 
最 终 一 致 性 
Object Container Account 
Replicator Replicator Replicator 
最 终 检验 
Object Container Account 
Auditor Auditor Auditor 


图 16-7 Swift 的 系统 架构 图 
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OpenStack 镜 像 服务 组 件 (Glance) 是 一 个 集 虚 拟 机 镜像 的 注册 、 发 现 和 检索 功能 
的 镜像 管理 项 目 ， 它 为 Nova 提 供 了 一 个 虚拟 磁盘 映像 存储 库 。Glance 提 供 关 于 注 
册 这 些 磁盘 映像 文件 的 API 接 口 ， 并 通过 简单 的 REST 接 口 实现 发 现 和 交付 。Glance 
并 不 关注 虚拟 磁盘 映像 文件 的 格式 ， 因 为 支持 各 种 标准 ， 包 括 VHD(Hyper-V)、 
QCOW2(QEMU)、QCOW2(KVM)、VMKD(VMware)、VDI1(VirtualBox)、Amazon 镜 
像 (AKI/ARILAMI) 以 及 各 种 基本 格式 。Glance 同 时 支持 镜像 文件 的 校 验 功能 、 版 本 控 
制 功能 以 及 虚拟 机 磁盘 的 验证 、 审 计 和 调试 日 志 等 。 

Nova 是 OpenStack 中 最 为 复杂 的 核心 分 布 式 组 件 ， 它 通过 大 量 进 程 之 间 的 相互 协 
作 ， 把 云 终 端 用 户 的 API 请 求 发 送 给 云 平台 中 正在 运行 的 虚拟 机 。Nova 中 的 主要 组 
件 包含 : nova-api(API Server), Message Queue server( 消 息 队 列 )、nova-compute( 运 算 
节点 )、nova-network( 网 络 服务 管理 )、nova-volume( 卷 管理 )、nova-scheduler( 资 源 调 
度 器 )。 这 些 组 件 可 运行 在 同一 台 物 理 服务 器 上 ， 也 可 单独 运行 在 不 同 的 物理 服务 器 
上 。 这 些 组 件 之 间 的 通信 及 逻辑 架构 如 图 16-8 所 示 。 


云 用 户 互联 网 用 户 
使 用 工具 管理 虚拟 用 户 使 用 服务 管理 虚拟 用 户 
= 


王 


Ch flea 


Nova-network 
: (网 络 控制 器 ) | 


Nova-api Nova-api 
(API 服 务 器 ) 网 (API 服 务 器 ) 
Re x 


所 + 
Sy 2 
Nova-authorisation AMOP 下 Nova-compute 
鉴 权 服务 器 消息 服务 器 c=? 计算 服务 器 
aay ‘ 虚拟 用 户 镜像 
一 一 \ 
\ 


st ' 


/ 


ee, « 
(ae _] amass} ‘sr | 
图 16-8 Nova 组件 之 间 的 通信 及 逻辑 架构 
(1) nova-api 组 件 实现 了 RESTM API 的 功能 ， 是 外 部 组 件 访问 Nova 组 件 的 唯一 途 
径 。nova-api 负 责 接收 来 自 外 部 的 操作 请 求 ， 再 通过 消息 队列 (Message Queue) 把 请 求 
发 送 给 其 他 组 件 ， 该 组 件 同时 兼容 亚马逊 的 EC2API， 因 此 云 用 户 可 以 用 EC2 的 管理 
工具 来 对 nova 进 行 日 常 管理 工作 。 
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(2) nova-compnute 组 件 是 通常 运行 在 计算 服务 器 节点 上 的 一 个 Worker 守 护 进 程 ， 
它 通过 Message Queue 接 收 VM( 虚 拟 机 实例 ) 生 命 周期 的 管理 指令 ， 并 实施 具体 的 行为 
操作 ， 比 如 VM 的 创建 操作 、 删 除 操作 、 迁 移 操作 、Resize 操 作 等 。 

(3) nova-volume 组 件 一 般 运行 在 存储 服务 器 节点 ， 起 到 类 似 于 Agent 的 作用 ， 它 
主要 执行 Volume 相 关 的 功能 ， 比 如 创建 新 卷 、 为 虚拟 机 实例 绑 定 或 解 绑 卷 等 。 

(4) Message Queue 组 件 是 命令 集散 地 ，OpenStack 采 用 “shared-nothing， 
messaging-based” 的 架构 ， 其 内 部 的 各 个 服务 组 件 之 间 通 过 消息 队列 进行 通信 。 任 
何 Message Queue Server， 只 要 支持 AMQP( 高 级 消息 队列 协议 )， 均 可 以 作为 Nova 中 
各 服务 组 件 之 间 的 通信 管道 。 此 外 ， 为 了 提高 用 户 体验 ，Nova 采 用 了 “回调 ”(call- 
back) 机 制 发 送 消息 。Nova 在 各 组 件 之 间 的 消息 传递 流程 如 图 16-9 所 示 。 


11. 建 立 网 络 规则 <> 


12. 创建 domain 


Nova-network =< Ce KVM SS 


图 16-9 Nova 在 各 组 件 之 间 的 消息 传递 流 


Nova-scheduler 


3} 选中 host | 2. 选择 host 请 求 
4. 传送 host 信 息 


一 全 | Nova-api 


Scheduler 
选择 host 


16.3 大 数据 基于 云 计算 IAAS( 包 括 Docker) 部 署 的 探讨 


在 大 型 的 生产 环境 中 ，Hadoop 集 群 部 署 在 物理 真实 环境 中 ， 以 保证 CPU、 
RAM、 磁 盘 1O 及 网 络 的 性 能 保障 。 

目前 其 也 有 在 云 虚拟 环境 下 进行 大 数据 集群 部 署 的 需求 ， 业 界 也 针对 此 需求 进 
行 了 相关 的 探讨 。 

应 该 说 ， 目 前 在 云 虚拟 设备 上 搭建 大 数据 环境 类 似 于 物理 搭建 环境 ， 搭 建 环境 
相对 简单 ， 易 于 部 署 ， 但 是 性 能 会 弱 于 纯 物理 机 环境 。 

例如 ， 对 于 一 个 24 核 CPU、128G 内 存 、3T 磁 盘 空间 的 小 型 机 ， 完 全 可 以 虚拟 化 
成 4 核 CPU、20G 内 存 、400G 磁 盘 空 间 的 6 个 虚拟 机 ， 这 样 一 台 小 型 机 就 可 以 非常 方 
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便 地 部 署 一 个 小 型 的 Hadoop 集 群 ， 非 常 便捷 地 对 系统 的 基本 功能 进行 验证 与 测试 。 

但 是 我 们 需要 认识 到 ， 对 于 一 个 实际 商用 的 大 型 Hadoop 集 群 ， 将 有 大 量 的 任务 
在 该 集群 上 运行 ， 需 要 大 量 的 网 络 资源 和 IO 操作 资源 。 在 部 分 场景 下 ， 每 个 文件 甚至 
会 复制 两 次 以 上 ， 如 果 磁盘 IO 性 能 过 低 ， 整 个 集群 的 效率 将 急剧 下 降 ， 甚 至 不 可 用 。 

所 以 ， 对 于 大 型 商用 Hadoop 集 群 ， 特 别 是 高 IO 应 用 的 集群 ， 如 果 部 署 在 云 虚 拟 
设备 上 ， 将 需要 满足 较 多 约束 ， 否 则 集群 的 效率 将 很 难保 证 。 

在 云 部 署 条 件 下 ， 需 要 重点 考虑 集群 节点 的 配置 是 否 能 匹配 业务 运行 的 需求 ， 
需 考虑 的 配置 包括 CPU、RAM、 磁盘 和 网 络 环境 等 。 但 在 云 环 境 中 ， 虚 拟 机 的 资源 
是 受 限 的 ， 例 如 磁盘 的 容量 也 很 难保 证 到 一 个 比较 高 的 水 平 ， 也 很 难 对 IO 性 能 做 出 
承诺 。 如 果 通 过 绑 定 资源 的 方式 来 解决 此 问题 ， 则 此 处 的 虚拟 机 与 实际 物理 设备 在 
概念 上 已 经 差别 不 大 。 

当前 业界 对 于 大 数据 在 虚拟 化 /Docker 上 的 部 署 方案 已 经 做 了 较 多 的 尝试 ， 但 每 
种 方案 都 有 各 自 的 局 限 (限于 篇 幅 ， 本 书 不 在 此 进行 详细 讨论 )， 并 且 对 于 大 规模 的 
商用 化 部 署 尚未 有 成 熟 的 应 用 案例 。 相 信 随 着 技术 的 发 展 ， 特 别 是 随 着 硅 光 互联 技 
术 的 发 展 和 成 熟 ， 未 来 的 云 计 算 技术 将 打破 服务 器 机 箱 、 机 柜 的 限制 ， 将 CPU、 内 
存 、 存 储 、 网 络 资源 等 解 耦 成 相互 独立 的 资源 池 。 未 来 通过 池 化 资源 按 需 组 装 的 虚 
拟 机 ， 在 各 类 性 能 上 将 与 物理 机 几乎 无 差别 ， 届 时 大 数据 全 面部 署 在 云 计算 环境 下 
将 不 再 存在 障碍 与 局 限 。 


= 
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虹 ， 每 时 每 刻 都 在 变换 ， 他 的 团队 唯 有 不 懈 地 努力 学 习 ， 才 能 跟 上 这 个 变幻 的 大 
时 代 。 

小 明知 道 ， 这 几 个 月 的 学 习 与 实践 ， 他 的 团队 只 是 掌握 了 大 数据 的 梗概 知识 。 
这 些 梗概 知识 ， 虽 然 离 一 个 真正 架构 师 所 需 掌握 的 知识 还 有 相当 遥远 的 距离 ， 但 这 
些 知 识 就 如 同 都 市 党 虹 海洋 中 的 那 几 条 主干 道 ， 可 以 帮助 团队 在 后 续 学 习 与 工作 中 
不 会 迷失 ， 而 会 向 着 正确 的 方向 前 进 。 

是 的 ， 他 的 团队 还 很 稚嫩 ， 但 他 们 已 经 做 好 了 攀登 高 峰 的 准备 。 剩 下 的 ， 就 是 
时 间 与 经 验 的 磨 研 ， 以 及 不 懈 地 学 习 与 坚持 。 


